Inclusion Arena revela desempenho de LLMs em produção

- Publicidade -

Tiago F Santiago 19/08/2025Última Atualização 19/08/2025

0 3 2 minutos de leitura

Inclusion Arena revela desempenho de LLMs em produção — Stop benchmarking in the lab: Inclusion Arena shows how LLMs perform in production

- Publicidade -

São Paulo — InkDesign News — A inclusão de novas metodologias para avaliação de modelos de inteligência artificial (IA), especialmente em aplicações de processamento de linguagem natural, tem sido essencial para otimizar a escolha de LLMs (Large Language Models) em ambientes empresariais. O recente projeto "Inclusion Arena" propõe uma nova abordagem para a medição de desempenho dessas tecnologias, destacando a relevância de avaliações em cenários reais.

Tecnologia e abordagem

A inclusão do modelo de leaderboard Inclusion Arena, desenvolvido por pesquisadores da Inclusion AI, busca superar limitações dos benchmarks tradicionais, que frequentemente são baseados em conjuntos de dados estáticos. A proposta envolve avaliações em tempo real que refletem as preferências dos usuários em interações reais. A metodologia emprega o modelo Bradley-Terry, amplamente utilizado em comparações de desempenho, permitindo uma análise mais precisa das capacidades dos modelos em condições práticas.

“Para abordar essas lacunas, propomos o Inclusion Arena, um leaderboard ao vivo que conecta aplicações de IA com modelos LLMs e MLLMs de última geração.”
(“To address these gaps, we propose Inclusion Arena, a live leaderboard that bridges real-world AI-powered applications with state-of-the-art LLMs and MLLMs.”)

— Pesquisadores da Inclusion AI

Aplicação e desempenho

A estrutura do Inclusion Arena é implementada em aplicativos de IA, como o Joyland e o T-Box. Durante o uso desses aplicativos, os usuários interagem com múltiplos LLMs sem saber qual modelo gerou a resposta, promovendo uma comparação justa. A partir das escolhas dos usuários, o algoritmo de Bradley-Terry calcula um escore para cada modelo, resultando em um ranking que se adapta à dinâmica de uso real.

Os primeiros resultados mostram que o modelo mais eficaz até agora é o Claude 3.7 Sonnet, seguido por outras versões desenvolvidas pela Anthropic e DeepSeek. Essa análise inicial abrangeu 501.003 comparações, destacando a eficácia da metodologia na identificação de modelos superiores.

Impacto e mercado

A necessidade de benchmarks mais dinâmicos é crescente, especialmente à medida que novas LLMs são desenvolvidas. O Inclusion Arena não apenas cria uma base mais robusta para avaliações, mas também permite que empresas realizem decisões mais informadas sobre quais modelos implantar em suas operações. A inclusão de estratégias como o mecanismo de correspondência de posicionamento e amostragem de proximidade representa um avanço significativo, já que facilita a comparação entre modelos em um número crescente.

A avaliação contínua através de dados em tempo real permitirá ajustes nas estratégias de implementação de IA, levando as empresas a um uso mais eficaz dessas tecnologias.

Em resumo, o Inclusion Arena sinaliza uma nova era na avaliação de modelos de IA, ligada diretamente ao desempenho e satisfação do usuário em cenários práticos.

Fonte: (VentureBeat – AI)

- Publicidade -

Etiquetas

Tiago F Santiago 19/08/2025Última Atualização 19/08/2025

0 3 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Inclusion Arena revela desempenho de LLMs em produção

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Tiago F Santiago

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

KeyGo lança teclado dobrável ultra-slim com tela sensível

Meta revisa suas metas em AI: sinal de dificuldades?

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado