- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

Inclusion Arena revela desempenho de LLMs em produção

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — A inclusão de novas metodologias para avaliação de modelos de inteligência artificial (IA), especialmente em aplicações de processamento de linguagem natural, tem sido essencial para otimizar a escolha de LLMs (Large Language Models) em ambientes empresariais. O recente projeto "Inclusion Arena" propõe uma nova abordagem para a medição de desempenho dessas tecnologias, destacando a relevância de avaliações em cenários reais.

Tecnologia e abordagem

A inclusão do modelo de leaderboard Inclusion Arena, desenvolvido por pesquisadores da Inclusion AI, busca superar limitações dos benchmarks tradicionais, que frequentemente são baseados em conjuntos de dados estáticos. A proposta envolve avaliações em tempo real que refletem as preferências dos usuários em interações reais. A metodologia emprega o modelo Bradley-Terry, amplamente utilizado em comparações de desempenho, permitindo uma análise mais precisa das capacidades dos modelos em condições práticas.

“Para abordar essas lacunas, propomos o Inclusion Arena, um leaderboard ao vivo que conecta aplicações de IA com modelos LLMs e MLLMs de última geração.”
(“To address these gaps, we propose Inclusion Arena, a live leaderboard that bridges real-world AI-powered applications with state-of-the-art LLMs and MLLMs.”)

— Pesquisadores da Inclusion AI

Aplicação e desempenho

A estrutura do Inclusion Arena é implementada em aplicativos de IA, como o Joyland e o T-Box. Durante o uso desses aplicativos, os usuários interagem com múltiplos LLMs sem saber qual modelo gerou a resposta, promovendo uma comparação justa. A partir das escolhas dos usuários, o algoritmo de Bradley-Terry calcula um escore para cada modelo, resultando em um ranking que se adapta à dinâmica de uso real.

Os primeiros resultados mostram que o modelo mais eficaz até agora é o Claude 3.7 Sonnet, seguido por outras versões desenvolvidas pela Anthropic e DeepSeek. Essa análise inicial abrangeu 501.003 comparações, destacando a eficácia da metodologia na identificação de modelos superiores.

Impacto e mercado

A necessidade de benchmarks mais dinâmicos é crescente, especialmente à medida que novas LLMs são desenvolvidas. O Inclusion Arena não apenas cria uma base mais robusta para avaliações, mas também permite que empresas realizem decisões mais informadas sobre quais modelos implantar em suas operações. A inclusão de estratégias como o mecanismo de correspondência de posicionamento e amostragem de proximidade representa um avanço significativo, já que facilita a comparação entre modelos em um número crescente.

A avaliação contínua através de dados em tempo real permitirá ajustes nas estratégias de implementação de IA, levando as empresas a um uso mais eficaz dessas tecnologias.

Em resumo, o Inclusion Arena sinaliza uma nova era na avaliação de modelos de IA, ligada diretamente ao desempenho e satisfação do usuário em cenários práticos.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!