
São Paulo — InkDesign News — Pesquisadores da Salesforce apresentaram uma nova metodologia chamada MCPEval, que utiliza o Model Context Protocol (MCP) para avaliar o desempenho de agentes de inteligência artificial (IA) em tempo real. Essa abordagem visa aprimorar a eficácia dos agentes de IA, especialmente em tarefas complexas que exigem interação com diversas ferramentas.
Tecnologia e abordagem
MCPEval é uma ferramenta open-source fundamentada na arquitetura do MCP, facilitando a avaliação do uso de ferramentas por agentes de IA. Diferentemente dos métodos tradicionais, que frequentemente dependem de tarefas estáticas e predefinidas, o MCPEval oferece uma avaliação dinâmica que captura trajetórias de tarefas e dados de interação de forma sistemática. A metodologia coleta informações detalhadas sobre como os agentes operam, gerando conjuntos de dados valiosos para melhorias contínuas.
O processo de avaliação é automatizado, permitindo que os usuários ajustem rapidamente novos servidores e ferramentas MCP. Eles podem selecionar quais servidores e ferramentas testar, possibilitando a personalização na avaliação do agente.
Aplicação e desempenho
A estrutura do MCPEval abrange geração de tarefas, verificação e avaliação do modelo, utilizando múltiplos grandes modelos de linguagem (LLMs). Os usuários têm a liberdade de trabalhar com modelos com os quais estão mais familiarizados, e o sistema pode gerar relatórios detalhados sobre o desempenho do agente ao interagir com essas ferramentas.
Esse framework não apenas fornece métricas de sucesso/falha, mas também identifica lacunas no desempenho do agente. A pesquisa apontou que modelos como o GPT-4 costumam oferecer os melhores resultados em termos de avaliação.
“Precisamos aprender a avaliar corretamente os agentes que já conseguimos implantar.”
(“We now need to figure out how to evaluate them properly.”)— Shelby Heinecke, Gerente Sênior de Pesquisa em IA, Salesforce
Impacto e mercado
O crescimento do uso de agentes de IA em setores diversos está acompanhado por uma necessidade crescente de frameworks que testem e monitorem seu desempenho. Estudo e metodologias semelhantes, como as fornecidas por startups como a Galileo, demonstram uma tendência em desenvolver frameworks para avaliar a eficácia de ferramentas utilizadas pelos agentes.
O MCPEval representa um passo significativo na adaptação de metodologias de avaliação, permitindo que as empresas não apenas testem, mas treinem seus agentes para um uso mais eficiente. Heinecke enfatiza a importância de que as empresas selecionem um framework de avaliação específico para suas necessidades, considerando o ambiente em que os agentes operarão.
O futuro daIA autônoma parece não só promissor, mas exige uma atenção constante à avaliação e melhoria em tempo real dos agentes, sublinhando a relevância do MCPEval no contexto atual.
Fonte: (VentureBeat – AI)