AI enfrenta crise de avaliação em modelos de machine learning

São Paulo — InkDesign News — A avaliação da inteligência artificial enfrenta um dilema crescente à medida que novos modelos são constantemente desenvolvidos. A discussão gira em torno de como mensurar efetivamente o desempenho de sistemas como o ChatGPT em comparação com outras abordagens inovadoras, como o LiveCodeBench Pro.
Contexto da pesquisa
A discussão sobre a eficácia dos modelos de machine learning, como o ChatGPT e o modelo da Anthropic, vem se intensificando à medida que novas abordagens e benchmarks são introduzidos. De acordo com especialistas, a forma tradicional de avaliação, que se baseia em benchmarks fixos, parece já não refletir as reais habilidades dos modelos. Russell Brandon, especialista em avaliação de IA, sugere que esta abordagem está ultrapassada, uma vez que modelos são treinados para otimizar resultados de testes específicos sem necessariamente adquirir uma verdadeira compreensão ou inteligência.
Método e resultados
Recentemente, um grupo liderado por Zihan Zheng, estudante da NYU e medalhista em competições de codificação, desenvolveu o LiveCodeBench Pro. Este benchmark utiliza problemas extraídos de olimpíadas internacionais de algoritmos, onde os melhores modelos de IA alcançam apenas cerca de 53% de precisão em questões de dificuldade média. Os resultados indicam que, embora algoritmos como o GPT-4o mini e o Gemini 2.5 se aproximem do desempenho dos 10% melhores humanos, ainda lutam com raciocínio algorítmico mais sutil.
“Mostra que a IA ainda está longe de igualar os melhores programadores humanos.”
(“It shows that AI is still far from matching the best human coders.”)— Zihan Zheng, Estudante, NYU
Por outro lado, propostas como a Xbench, desenvolvida pelo HongShan Capital Group, buscam equilibrar testes em laboratório com a utilidade prática, avaliando tanto habilidades técnicas quanto a eficácia em tarefas do mundo real.
Implicações e próximos passos
Os desafios éticos associados à adoção de modelos de IA também surgem à medida que as avaliações se tornam mais sofisticadas. A confiabilidade dos modelos em cenários do mundo real, onde erros podem ter consequências graves, é uma preocupação crescente. Grupos de pesquisa contemporânea argumentam que a avaliação de modelos deve incluir a mensuração de riscos, não apenas a eficácia. Outras iniciativas, como a ARC-AGI, buscam evitar a sobrecarga de dados e a otimização excessiva dos modelos.
A busca por uma compreensão mais ampla do que significa “bom desempenho” em inteligência artificial continua a evoluir. As novas abordagens, incluindo a pesquisa de preferências humanas e dinâmicas de teste, indicam um movimento em direção a uma avaliação mais holística.
Além disso, a crítica sobre a cultura competitiva de pesquisa sugere que se não houver uma mudança na visão do que constitui sucesso, a área pode perder profundidade em suas descobertas.
Em síntese, o impacto potencial dessas iniciativas não só pode transformar a forma como medimos a inteligência artificial, mas também moldar a maneira como estas tecnologias são implementadas na sociedade.
Fonte: (MIT Technology Review – Artificial Intelligence)