Modelos de AI falham em produção; como selecionar corretamente

São Paulo — InkDesign News — O lançamento do RewardBench 2 pela Allen Institute of AI (AI2) promete revolucionar a avaliação de modelos de inteligência artificial (IA), oferecendo um método mais robusto para medir o desempenho de LLMs (modelos de linguagem de grande escala) em situações práticas.
Tecnologia e abordagem
O RewardBench 2 é uma atualização do RewardBench original, projetado para fornecer uma visão abrangente sobre o desempenho dos modelos, além de alinhar esses modelos com os objetivos empresariais. O framework incorpora tarefas de classificação que medem correlações através de computação em tempo de inferência e treinamento posterior. A abordagem enfatiza a avaliação de modelos de recompensa (RM), que atuam como juízes na avaliação das saídas de LLMs, atribuindo pontuações que orientam o aprendizado por reforço com feedback humano (RLHF).
Aplicação e desempenho
Dentre as inovações, a nova versão conta com prompts humanos não vistos, um setup de pontuação mais desafiador e novos domínios, que abrangem factualidade, seguimento de instruções precisas, segurança e foco. Nathan Lambert, cientista sênior da Ai2, destacou que “ao atualizar o RewardBench, visamos melhorar tanto a amplitude quanto a profundidade da avaliação, incorporando prompts mais diversificados e desafiadores”
“ao atualizar o RewardBench, visamos melhorar tanto a amplitude quanto a profundidade da avaliação, incorporando prompts mais diversificados e desafiadores”
(“in updating RewardBench, we aimed to improve both the breadth and depth of the evaluation by incorporating more diverse and challenging prompts”)— Nathan Lambert, Cientista Sênior, Allen Institute of AI
.
Os resultados indicam que modelos maiores tendem a apresentar um desempenho superior, com variantes do Llama-3.1 Instruct se destacando. No entanto, foi observado que "os modelos de recompensa precisam de receitas de treinamento em política" para integrarem-se de forma eficaz aos pipelines das empresas.
Impacto e mercado
Com o RewardBench 2, as empresas podem optar por melhores práticas e conjuntos de dados, facilitando a seleção dos modelos mais apropriados para suas aplicações específicas. Lambert acrescentou que “métricas de benchmark oferecem uma maneira de avaliar os modelos com base nas dimensões que mais importam para cada empresa, em vez de depender de uma pontuação única que pode não refletir suas necessidades”
“métricas de benchmark oferecem uma maneira de avaliar os modelos com base nas dimensões que mais importam para cada empresa”
(“benchmark metrics provide a way to evaluate the models based on the dimensions that matter most to each enterprise”)— Nathan Lambert, Cientista Sênior, Allen Institute of AI
.
À medida que o setor avança, a capacidade de alinhar modelos de IA com padrões éticos e operacionais se torna cada vez mais crucial. Os próximos passos apontam para a implementação prática do RewardBench 2 em pipelines de aprendizagem e a necessidade de pesquisadores e profissionais se adaptarem a esse novo paradigma de avaliação.
Fonte: (VentureBeat – AI)