- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

AI enfrenta crise de avaliação em modelos de machine learning

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — A avaliação da inteligência artificial enfrenta um dilema crescente à medida que novos modelos são constantemente desenvolvidos. A discussão gira em torno de como mensurar efetivamente o desempenho de sistemas como o ChatGPT em comparação com outras abordagens inovadoras, como o LiveCodeBench Pro.

Contexto da pesquisa

A discussão sobre a eficácia dos modelos de machine learning, como o ChatGPT e o modelo da Anthropic, vem se intensificando à medida que novas abordagens e benchmarks são introduzidos. De acordo com especialistas, a forma tradicional de avaliação, que se baseia em benchmarks fixos, parece já não refletir as reais habilidades dos modelos. Russell Brandon, especialista em avaliação de IA, sugere que esta abordagem está ultrapassada, uma vez que modelos são treinados para otimizar resultados de testes específicos sem necessariamente adquirir uma verdadeira compreensão ou inteligência.

Método e resultados

Recentemente, um grupo liderado por Zihan Zheng, estudante da NYU e medalhista em competições de codificação, desenvolveu o LiveCodeBench Pro. Este benchmark utiliza problemas extraídos de olimpíadas internacionais de algoritmos, onde os melhores modelos de IA alcançam apenas cerca de 53% de precisão em questões de dificuldade média. Os resultados indicam que, embora algoritmos como o GPT-4o mini e o Gemini 2.5 se aproximem do desempenho dos 10% melhores humanos, ainda lutam com raciocínio algorítmico mais sutil.

“Mostra que a IA ainda está longe de igualar os melhores programadores humanos.”
(“It shows that AI is still far from matching the best human coders.”)

— Zihan Zheng, Estudante, NYU

Por outro lado, propostas como a Xbench, desenvolvida pelo HongShan Capital Group, buscam equilibrar testes em laboratório com a utilidade prática, avaliando tanto habilidades técnicas quanto a eficácia em tarefas do mundo real.

Implicações e próximos passos

Os desafios éticos associados à adoção de modelos de IA também surgem à medida que as avaliações se tornam mais sofisticadas. A confiabilidade dos modelos em cenários do mundo real, onde erros podem ter consequências graves, é uma preocupação crescente. Grupos de pesquisa contemporânea argumentam que a avaliação de modelos deve incluir a mensuração de riscos, não apenas a eficácia. Outras iniciativas, como a ARC-AGI, buscam evitar a sobrecarga de dados e a otimização excessiva dos modelos.

A busca por uma compreensão mais ampla do que significa “bom desempenho” em inteligência artificial continua a evoluir. As novas abordagens, incluindo a pesquisa de preferências humanas e dinâmicas de teste, indicam um movimento em direção a uma avaliação mais holística.

Além disso, a crítica sobre a cultura competitiva de pesquisa sugere que se não houver uma mudança na visão do que constitui sucesso, a área pode perder profundidade em suas descobertas.

Em síntese, o impacto potencial dessas iniciativas não só pode transformar a forma como medimos a inteligência artificial, mas também moldar a maneira como estas tecnologias são implementadas na sociedade.

Fonte: (MIT Technology Review – Artificial Intelligence)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!