
Pesquisa Avalia Precisão de Leaderboards em Modelos de AI
Pesquisadores da Universidade de Michigan analisaram sistemas de classificação utilizados em leaderboards de inteligência artificial, identificando que métodos ineficazes podem distorcer rankings e impactar a adoção tecnológica.
Contexto da pesquisa
A crescente oferta de modelos de “machine learning” (ML) gerou um interesse acentuado em métodos eficazes de avaliação. Os pesquisadores se concentraram na análise de sistemas de classificação, como o Chatbot Arena, e outras plataformas de competições que utilizam dados de desempenho crowdsourced. Isso é crucial para entender qual modelo realmente se destaca no cenário competitivo de AI.
Método proposto
O estudo revisou quatro métodos de classificação, incluindo o sistema Elo, que é amplamente conhecido por avaliar jogadores de xadrez e atletas. Eles implementaram testes utilizando dois conjuntos de dados crowdsourced, que avaliaram a precisão das classificações com base em vitórias e derrotas. Os métodos foram analisados quanto à sua sensibilidade a definições de usuários e à lógica de comparações, buscando garantir que os rankings seguissem uma hierarquia clara e justa.
Resultados e impacto
Os resultados indicaram que o sistema Glicko ofereceu a maior consistência, especialmente quando o número de comparações era desigual. Em contraste, o sistema Bradley-Terry pode ser eficaz, mas somente em situações de comparações equilibradas, levantando preocupações sobre a precisão de novas entradas no mercado. O uso do Elo e das Cadeias de Markov revelou-se dependente das configurações dos usuários, o que pode gerar rankings inconsistentes.
“Embora novos modelos possam vencer competições, isso não indica que sejam os melhores. É necessário um grande número de comparações para uma avaliação precisa.”
(“Just because a model comes onto the scene and beats a grandmaster doesn’t necessarily mean it’s the best model. You need many, many games to know what the truth is.”)— Jason Mars, Professor Associado, Universidade de Michigan
Os investigadores sugerem que esses resultados têm implicações significativas na comunidade de AI, fornecendo um caminho para desenvolver métodos de avaliação mais robustos, o que poderá facilitar a adoção responsável desta tecnologia. A integridade nos métodos de avaliação é vital à medida que a sociedade avança na implementação de soluções de AI para variados usos.
Fonte: (TechXplore – Machine Learning & AI)