
São Paulo — InkDesign News — A adoção de padrões de interoperabilidade, como o Model Context Protocol (MCP), está moldando o futuro das interações entre Inteligência Artificial (IA) e ambientes empresariais. Um novo benchmark, o MCP-Universe, desenvolvido pela Salesforce AI Research, visa avaliar como Modelos de Linguagem Grande (LLMs) interagem com servidores MCP em cenários práticos e do mundo real.
Tecnologia e abordagem
O MCP-Universe foi projetado para oferecer uma avaliação abrangente da performance de modelos LLM, utilizando uma abordagem baseada em execução para analisar tarefas. A estrutura contempla seis domínios principais: navegação geográfica, gestão de repositórios, análise financeira, design 3D, automação de navegador e busca na web. O benchmark acessou 11 servidores MCP para executar um total de 231 tarefas específicas.
“Os benchmarks existentes se concentram predominantemente em aspectos isolados do desempenho de LLMs, sem fornecer uma avaliação abrangente de como os modelos interagem com servidores MCP do mundo real.”
(“Existing benchmarks predominantly focus on isolated aspects of LLM performance, without providing a comprehensive assessment of how models interact with real-world MCP servers.”)— Junnan Li, Diretor de Pesquisa em IA, Salesforce
Aplicação e desempenho
A pesquisa avaliou diversos modelos populares, incluindo o GPT-5 da OpenAI, que obteve a melhor taxa de sucesso em tarefas de análise financeira. No entanto, o MCP-Universe revelou que muitos modelos enfrentam dificuldades significativas ao lidar com contextos longos e ferramentas desconhecidas, comprometendo mais da metade das tarefas típicas que as empresas precisam realizar.
“Os LLMs demonstraram dificuldade em completar mais da metade das tarefas que as empresas normalmente executam.”
(“The LLMs demonstrated difficulty in completing more than half of the tasks that enterprises typically perform.”)— Junnan Li, Diretor de Pesquisa em IA, Salesforce
Impacto e mercado
Esta pesquisa sinaliza que os LLMs atuais ainda não estão prontos para serem aplicados em tarefas empresariais de forma confiável. A necessidade de um benchmark como o MCP-Universe se destaca pela falta de métricas que abranjam interações em cenários do dia a dia. A Salesforce incentiva empresas a utilizarem o MCP-Universe para identificar falhas em suas implementações de IA e aprimorar suas ferramentas.
O MCP-Universe representa um passo importante em direção a uma avaliação mais prática de modelos de IA, e seu uso pode influenciar a forma como as empresas adotam e implementam soluções de inteligência artificial.
Fonte: (VentureBeat – AI)