Deep learning corrige falhas em rankings de AI

- Publicidade -

Tiago F Santiago 29/07/2025Última Atualização 29/07/2025

0 5 1 minuto de leitura

Deep learning corrige falhas em rankings de AI — Online leaderboards evaluate AI models by asking people to rate the generated content in head-to-head comparisons, in what the researchers call an "LLM Smackdown." A faulty ranking system could give a model the championship belt for the wrong reasons. Credit: Generated by Google Gemini 2.5 Flash and edited by Derek Smith

- Publicidade -

Pesquisa Avalia Precisão de Leaderboards em Modelos de AI

Pesquisadores da Universidade de Michigan analisaram sistemas de classificação utilizados em leaderboards de inteligência artificial, identificando que métodos ineficazes podem distorcer rankings e impactar a adoção tecnológica.

Contexto da pesquisa

A crescente oferta de modelos de “machine learning” (ML) gerou um interesse acentuado em métodos eficazes de avaliação. Os pesquisadores se concentraram na análise de sistemas de classificação, como o Chatbot Arena, e outras plataformas de competições que utilizam dados de desempenho crowdsourced. Isso é crucial para entender qual modelo realmente se destaca no cenário competitivo de AI.

Método proposto

O estudo revisou quatro métodos de classificação, incluindo o sistema Elo, que é amplamente conhecido por avaliar jogadores de xadrez e atletas. Eles implementaram testes utilizando dois conjuntos de dados crowdsourced, que avaliaram a precisão das classificações com base em vitórias e derrotas. Os métodos foram analisados quanto à sua sensibilidade a definições de usuários e à lógica de comparações, buscando garantir que os rankings seguissem uma hierarquia clara e justa.

Resultados e impacto

Os resultados indicaram que o sistema Glicko ofereceu a maior consistência, especialmente quando o número de comparações era desigual. Em contraste, o sistema Bradley-Terry pode ser eficaz, mas somente em situações de comparações equilibradas, levantando preocupações sobre a precisão de novas entradas no mercado. O uso do Elo e das Cadeias de Markov revelou-se dependente das configurações dos usuários, o que pode gerar rankings inconsistentes.

“Embora novos modelos possam vencer competições, isso não indica que sejam os melhores. É necessário um grande número de comparações para uma avaliação precisa.”
(“Just because a model comes onto the scene and beats a grandmaster doesn’t necessarily mean it’s the best model. You need many, many games to know what the truth is.”)

— Jason Mars, Professor Associado, Universidade de Michigan

Os investigadores sugerem que esses resultados têm implicações significativas na comunidade de AI, fornecendo um caminho para desenvolver métodos de avaliação mais robustos, o que poderá facilitar a adoção responsável desta tecnologia. A integridade nos métodos de avaliação é vital à medida que a sociedade avança na implementação de soluções de AI para variados usos.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -

Etiquetas

Tiago F Santiago 29/07/2025Última Atualização 29/07/2025

0 5 1 minuto de leitura

Ler o Próximo

Deixe um comentário Cancelar resposta

Where To Buy Proxies
I used to be recommended this web site through my cousin. I'...
Edenilsa
Que interessante essa matéria que acabei de ler, até compart...
Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...

Deep learning corrige falhas em rankings de AI

Pesquisa Avalia Precisão de Leaderboards em Modelos de AI

Contexto da pesquisa

Método proposto

Resultados e impacto

Tiago F Santiago

Ler o Próximo

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

Deixe um comentário Cancelar resposta

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Corinthians busca vitória sobre Santos em clássico do Brasileirão

NASA oferece desconto em câmera Canon e lente grande angular

Wearables inovadores e design inteligente para 2025

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

Uerj revoga título a Médici em ação contra governo militar

Pesquisa Avalia Precisão de Leaderboards em Modelos de AI

Contexto da pesquisa

Método proposto

Resultados e impacto

Ler o Próximo

Machine learning ainda não supera vendedores humanos

LLM influencia normas da indústria em festivais de cinema

Deep learning detecta incêndios rapidamente em câmeras comuns

Sakana AI usa deep learning inspirado na natureza

Redes neurais físicas treinam mais eficientemente com luz

Modelos de AI calculam palavras de maneira inovadora

Swarm intelligence melhora soluções com machine learning

Modelo de AI anima filme para estreia no Cannes

Mistral fortalece liderança em IA na Europa com investimento

Sistema de banco de dados relacional impulsiona machine learning

Beyblade faz retorno épico em estilo Smash Bros durante combate

SOSV aposta em plasma para cleantech e semiconductores

Artigos relacionados

Deixe um comentário Cancelar resposta

Corinthians busca vitória sobre Santos em clássico do Brasileirão

NASA oferece desconto em câmera Canon e lente grande angular

Wearables inovadores e design inteligente para 2025

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Robô da RoboCup@Work League transforma processos industriais

Uerj revoga título a Médici em ação contra governo militar

Adblock detectado