- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

GPT-5 falha em mais da metade das tarefas de AI na prática

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — A adoção de padrões de interoperabilidade, como o Model Context Protocol (MCP), está moldando o futuro das interações entre Inteligência Artificial (IA) e ambientes empresariais. Um novo benchmark, o MCP-Universe, desenvolvido pela Salesforce AI Research, visa avaliar como Modelos de Linguagem Grande (LLMs) interagem com servidores MCP em cenários práticos e do mundo real.

Tecnologia e abordagem

O MCP-Universe foi projetado para oferecer uma avaliação abrangente da performance de modelos LLM, utilizando uma abordagem baseada em execução para analisar tarefas. A estrutura contempla seis domínios principais: navegação geográfica, gestão de repositórios, análise financeira, design 3D, automação de navegador e busca na web. O benchmark acessou 11 servidores MCP para executar um total de 231 tarefas específicas.

“Os benchmarks existentes se concentram predominantemente em aspectos isolados do desempenho de LLMs, sem fornecer uma avaliação abrangente de como os modelos interagem com servidores MCP do mundo real.”
(“Existing benchmarks predominantly focus on isolated aspects of LLM performance, without providing a comprehensive assessment of how models interact with real-world MCP servers.”)

— Junnan Li, Diretor de Pesquisa em IA, Salesforce

Aplicação e desempenho

A pesquisa avaliou diversos modelos populares, incluindo o GPT-5 da OpenAI, que obteve a melhor taxa de sucesso em tarefas de análise financeira. No entanto, o MCP-Universe revelou que muitos modelos enfrentam dificuldades significativas ao lidar com contextos longos e ferramentas desconhecidas, comprometendo mais da metade das tarefas típicas que as empresas precisam realizar.

“Os LLMs demonstraram dificuldade em completar mais da metade das tarefas que as empresas normalmente executam.”
(“The LLMs demonstrated difficulty in completing more than half of the tasks that enterprises typically perform.”)

— Junnan Li, Diretor de Pesquisa em IA, Salesforce

Impacto e mercado

Esta pesquisa sinaliza que os LLMs atuais ainda não estão prontos para serem aplicados em tarefas empresariais de forma confiável. A necessidade de um benchmark como o MCP-Universe se destaca pela falta de métricas que abranjam interações em cenários do dia a dia. A Salesforce incentiva empresas a utilizarem o MCP-Universe para identificar falhas em suas implementações de IA e aprimorar suas ferramentas.

O MCP-Universe representa um passo importante em direção a uma avaliação mais prática de modelos de IA, e seu uso pode influenciar a forma como as empresas adotam e implementam soluções de inteligência artificial.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!