
São Paulo — InkDesign News — Pesquisadores da Salesforce e da Universidade do Sul da Califórnia desenvolveram CoAct-1, uma nova abordagem em inteligência artificial que combina a interação com interfaces gráficas e a execução de código para melhorar a eficiência das automações. Essa técnica tem potencial para acelerar fluxos de trabalho e reduzir erros.
Tecnologia e abordagem
CoAct-1 (Computer-using Agent with Coding as Actions) estrutura-se em uma equipe de três agentes: um Orquestrador, um Programador e um Operador GUI. O Orquestrador analisa a meta do usuário, quebra-a em subtarefas e delega cada uma delas ao agente mais adequado. O Programador é responsável por escrever e executar scripts em Python ou Bash, enquanto o Operador GUI lida com as interações visuais. Esse modelo híbrido evita sequências de clicar que podem ser ineficientes, permitindo uma execução mais confiável e direta através de códigos.
Aplicação e desempenho
Nos testes, CoAct-1 foi avaliado em 369 tarefas reais em navegadores e aplicativos de escritório, alcançando uma taxa de sucesso de 60,76%. Em comparação com agentes baseados apenas em GUI, que frequentemente falham em tarefas complexas, o CoAct-1 reduziu o número médio de passos necessários para completar uma tarefa, alcançando uma média de 10,15 passos, em contraste com 15,22 passos de líderes do setor. Esse desempenho é notável em operações que beneficiam do controle programático, como tarefas em nível de sistema.
“Uma única falha de clique ou entendimento incorreto de um elemento da interface pode comprometer toda a tarefa.”
(“A single mis-click or misunderstood UI element can derail the entire task.”)— Pesquisadores, Salesforce e Universidade do Sul da Califórnia
Impacto e mercado
A aplicabilidade do CoAct-1 é evidente em diversos setores, especialmente em suporte ao cliente, onde a automação de processos complexos pode proporcionar uma vantagem competitiva. Com a capacidade de alavancar ferramentas diversas — desde aquelas com acesso a API até sistemas personalizados — a solução pode otimizar operações em ambientes reais, que muitas vezes são caóticos e não padronizados.
Os pesquisadores destacam a importância de um controle humano, especialmente em situações de ambiguidade na interação com softwares desconhecidos. “O objetivo é criar um sistema onde o agente possa observar a maneira como os humanos trabalham e ser treinado em ambientes simulados”, afirma Ran Xu, coautor do estudo.
Conforme as implementações práticas avançam, a necessidade de salvaguardas de segurança e validação humana continua a ser uma preocupação, especialmente ao permitir que agentes executem seus próprios códigos.
Próximos passos podem incluir a adaptação dessa tecnologia para aplicações mais desafiadoras, onde o supervisionamento humano garantirá a implementação segura e eficaz.
Fonte: (VentureBeat – AI)