
São Paulo — InkDesign News — O avanço de machine learning e deep learning está redefinindo a maneira como as empresas utilizam agentes de IA para resolver problemas complexos, conforme revelado nas recentes conferências da Microsoft e Google.
Arquitetura de modelo
A evolução das arquiteturas de modelo está impulsionando o desenvolvimento de agentes autônomos capazes de realizar tarefas complexas. Os sistemas de IA, como o GitHub Copilot e o Gemini 2.5, estão integrando ferramentas de inteligência artificial de última geração para oferecer suporte mais robusto ao usuário. Os agentes são projetados não apenas para responder a comandos, mas para iniciar ações e colaborar com usuários e outros agentes.
“Apenas responder a prompts não é mais suficiente; nossos modelos precisam entender o contexto e executar ações de forma autônoma.”
(“Just responding to prompts is no longer enough; our models need to understand context and perform actions autonomously.”)— Satya Nadella, CEO, Microsoft
Treinamento e otimização
Os métodos de treinamento também estão mudando para adequar-se a esses novos paradigmas. O benchmark GAIA foi introduzido para avaliar a eficácia de agentes de IA, focando em sua capacidade de agir como assistentes gerais. Este benchmark apresenta um conjunto de 466 questões que testam habilidades como raciocínio lógico e uso de ferramentas.
“Precisamos de uma maneira eficaz de medir a inteligência prática e a eficiência dos assistentes de IA.”
(“We need an effective way to measure practical intelligence and efficiency of AI assistants.”)— Mialon et al., Pesquisador, Meta-FAIR
Resultados e métricas
A pontuação no GAIA fornece uma nova perspectiva sobre o desempenho dos agentes, destacando tanto a acurácia quanto o custo das operações. Enquanto humanos alcançam cerca de 92% de precisão nas tarefas do GAIA, agentes com suporte do GPT-4 apresentam desempenhos variados, com as melhores soluções atingindo até 74% de precisão.
“A real medida do sucesso de um agente não é apenas a precisão, mas também o custo de operação em um ambiente prático.”
(“The true measure of an agent’s success is not only accuracy but also operational cost in a practical environment.”)— Besta et al., Pesquisador, H2O.ai
Este conjunto de métricas não apenas redefine como avaliamos agentes de IA, mas também abre caminho para aplicações futuras em ambientes mais desafiadores. As implicações práticas do GAIA podem influenciar futuras pesquisas e o design de agentes mais eficientes e eficazes.
Fonte: (Towards Data Science – AI, ML & Deep Learning)