- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

Modelos de AI falham em produção; como selecionar corretamente

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — O lançamento do RewardBench 2 pela Allen Institute of AI (AI2) promete revolucionar a avaliação de modelos de inteligência artificial (IA), oferecendo um método mais robusto para medir o desempenho de LLMs (modelos de linguagem de grande escala) em situações práticas.

Tecnologia e abordagem

O RewardBench 2 é uma atualização do RewardBench original, projetado para fornecer uma visão abrangente sobre o desempenho dos modelos, além de alinhar esses modelos com os objetivos empresariais. O framework incorpora tarefas de classificação que medem correlações através de computação em tempo de inferência e treinamento posterior. A abordagem enfatiza a avaliação de modelos de recompensa (RM), que atuam como juízes na avaliação das saídas de LLMs, atribuindo pontuações que orientam o aprendizado por reforço com feedback humano (RLHF).

Aplicação e desempenho

Dentre as inovações, a nova versão conta com prompts humanos não vistos, um setup de pontuação mais desafiador e novos domínios, que abrangem factualidade, seguimento de instruções precisas, segurança e foco. Nathan Lambert, cientista sênior da Ai2, destacou que “ao atualizar o RewardBench, visamos melhorar tanto a amplitude quanto a profundidade da avaliação, incorporando prompts mais diversificados e desafiadores”

“ao atualizar o RewardBench, visamos melhorar tanto a amplitude quanto a profundidade da avaliação, incorporando prompts mais diversificados e desafiadores”
(“in updating RewardBench, we aimed to improve both the breadth and depth of the evaluation by incorporating more diverse and challenging prompts”)

— Nathan Lambert, Cientista Sênior, Allen Institute of AI

.

Os resultados indicam que modelos maiores tendem a apresentar um desempenho superior, com variantes do Llama-3.1 Instruct se destacando. No entanto, foi observado que "os modelos de recompensa precisam de receitas de treinamento em política" para integrarem-se de forma eficaz aos pipelines das empresas.

Impacto e mercado

Com o RewardBench 2, as empresas podem optar por melhores práticas e conjuntos de dados, facilitando a seleção dos modelos mais apropriados para suas aplicações específicas. Lambert acrescentou que “métricas de benchmark oferecem uma maneira de avaliar os modelos com base nas dimensões que mais importam para cada empresa, em vez de depender de uma pontuação única que pode não refletir suas necessidades”

“métricas de benchmark oferecem uma maneira de avaliar os modelos com base nas dimensões que mais importam para cada empresa”
(“benchmark metrics provide a way to evaluate the models based on the dimensions that matter most to each enterprise”)

— Nathan Lambert, Cientista Sênior, Allen Institute of AI

.

À medida que o setor avança, a capacidade de alinhar modelos de IA com padrões éticos e operacionais se torna cada vez mais crucial. Os próximos passos apontam para a implementação prática do RewardBench 2 em pipelines de aprendizagem e a necessidade de pesquisadores e profissionais se adaptarem a esse novo paradigma de avaliação.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!