Alibaba lança Qwen3-235B-A22B-2507 e supera Kimi-2 e Claude Opus

São Paulo — InkDesign News — A nova atualização do modelo Qwen 3 da Alibaba traz inovações significativas na área de inteligência artificial, destacando-se como um poderoso LLM (Modelos de Linguagem de Grande Escala) na comunidade de deep learning. Lançado inicialmente em abril de 2023, o Qwen 3 promete maior eficiência e desempenho em comparação com suas versões anteriores.
Tecnologia e abordagem
O Qwen 3-235B-A22B-2507 é um modelo que funciona com uma arquitetura de mistura de especialistas (MoE), ativando 8 dos 128 especialistas disponíveis durante a inferência e totalizando 235 bilhões de parâmetros. Esta nova versão inclui um modelo FP8 (8-bit floating point), que reduz o uso de memória e potência de processamento, permitindo que o modelo opere de maneira mais eficiente em hardware menos robusto. Essa abordagem proporciona tempos de resposta mais rápidos e custos reduzidos de energia.
Aplicação e desempenho
Em termos de desempenho, a atualização do Qwen 3 apresenta melhorias notáveis em várias métricas. Por exemplo, os escores MMLU-Pro aumentaram de 75,2 para 83,0, evidenciando um ganho significativo no conhecimento geral. Em benchmarks como GPQA e SuperGPQA, as pontuações melhoraram em 15 a 20 pontos percentuais, refletindo um aprimoramento na precisão factual. O modelo também mostrou um desempenho mais de duas vezes melhor em tarefas de raciocínio, como AIME25 e ARC-AGI.
“Depois de conversar com a comunidade, decidimos parar de usar o modo híbrido de raciocínio. Em vez disso, treinaremos modelos de instrução e raciocínio separadamente para obter a melhor qualidade possível.”
(“After talking with the community and thinking it through, we decided to stop using hybrid thinking mode. Instead, we’ll train Instruct and Thinking models separately so we can get the best quality possible.”)— Qwen Team
A nova estratégia elimina a complexidade dо mоdо hibrido, permitindo uma melhor aderência às instruções dos usuários e respostas mais previsíveis.
Impacto e mercado
As implicações do Qwen 3 são significativas para o mercado de inteligência artificial. Com uma licença permissiva Apache 2.0, o modelo é projetado para a implantação empresarial, permitindo que empresas o utilizem livremente em aplicações comerciais. Os usuários podem implantar o modelo localmente, realizar fine-tuning sem expor dados proprietários e escalar desde protótipos até até implementações completas.
O Qwen 3 se posiciona como uma alternativa viável a sistemas proprietários, oferecendo flexibilidade e uma robusta capacidade de desempenho para desenvolvedores e empresas. A indústria está observando atentamente as próximas atualizações, com rumores sobre um futuro modelo focado em raciocínio e maior capacidade multimodal.
Fonte: (VentureBeat – AI)