AI enfrenta crise de avaliação em modelos de machine learning

- Publicidade -

Tiago F Santiago 24/06/2025Última Atualização 24/06/2025

0 44 2 minutos de leitura

AI enfrenta crise de avaliação em modelos de machine learning — Getty Images

- Publicidade -

São Paulo — InkDesign News — A avaliação da inteligência artificial enfrenta um dilema crescente à medida que novos modelos são constantemente desenvolvidos. A discussão gira em torno de como mensurar efetivamente o desempenho de sistemas como o ChatGPT em comparação com outras abordagens inovadoras, como o LiveCodeBench Pro.

Contexto da pesquisa

A discussão sobre a eficácia dos modelos de machine learning, como o ChatGPT e o modelo da Anthropic, vem se intensificando à medida que novas abordagens e benchmarks são introduzidos. De acordo com especialistas, a forma tradicional de avaliação, que se baseia em benchmarks fixos, parece já não refletir as reais habilidades dos modelos. Russell Brandon, especialista em avaliação de IA, sugere que esta abordagem está ultrapassada, uma vez que modelos são treinados para otimizar resultados de testes específicos sem necessariamente adquirir uma verdadeira compreensão ou inteligência.

Método e resultados

Recentemente, um grupo liderado por Zihan Zheng, estudante da NYU e medalhista em competições de codificação, desenvolveu o LiveCodeBench Pro. Este benchmark utiliza problemas extraídos de olimpíadas internacionais de algoritmos, onde os melhores modelos de IA alcançam apenas cerca de 53% de precisão em questões de dificuldade média. Os resultados indicam que, embora algoritmos como o GPT-4o mini e o Gemini 2.5 se aproximem do desempenho dos 10% melhores humanos, ainda lutam com raciocínio algorítmico mais sutil.

“Mostra que a IA ainda está longe de igualar os melhores programadores humanos.”
(“It shows that AI is still far from matching the best human coders.”)

— Zihan Zheng, Estudante, NYU

Por outro lado, propostas como a Xbench, desenvolvida pelo HongShan Capital Group, buscam equilibrar testes em laboratório com a utilidade prática, avaliando tanto habilidades técnicas quanto a eficácia em tarefas do mundo real.

Implicações e próximos passos

Os desafios éticos associados à adoção de modelos de IA também surgem à medida que as avaliações se tornam mais sofisticadas. A confiabilidade dos modelos em cenários do mundo real, onde erros podem ter consequências graves, é uma preocupação crescente. Grupos de pesquisa contemporânea argumentam que a avaliação de modelos deve incluir a mensuração de riscos, não apenas a eficácia. Outras iniciativas, como a ARC-AGI, buscam evitar a sobrecarga de dados e a otimização excessiva dos modelos.

A busca por uma compreensão mais ampla do que significa “bom desempenho” em inteligência artificial continua a evoluir. As novas abordagens, incluindo a pesquisa de preferências humanas e dinâmicas de teste, indicam um movimento em direção a uma avaliação mais holística.

Além disso, a crítica sobre a cultura competitiva de pesquisa sugere que se não houver uma mudança na visão do que constitui sucesso, a área pode perder profundidade em suas descobertas.

Em síntese, o impacto potencial dessas iniciativas não só pode transformar a forma como medimos a inteligência artificial, mas também moldar a maneira como estas tecnologias são implementadas na sociedade.

Fonte: (MIT Technology Review – Artificial Intelligence)

- Publicidade -

Etiquetas

Tiago F Santiago 24/06/2025Última Atualização 24/06/2025

0 44 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

AI enfrenta crise de avaliação em modelos de machine learning

Contexto da pesquisa

Método e resultados

Implicações e próximos passos

Tiago F Santiago

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Contexto da pesquisa

Método e resultados

Implicações e próximos passos

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Inbolt traz sistemas de orientação em tempo real para robôs aos EUA e Japão

NASA investiga se o cosmos começou em um buraco negro

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado