OpenCUA lança agentes de uso de computador com AI open source

São Paulo — InkDesign News — Um novo framework desenvolvido por pesquisadores da Universidade de Hong Kong (HKU) e instituições colaboradoras está oferecendo uma base open source robusta para a criação de agentes de inteligência artificial capazes de operar computadores. O OpenCUA, que integra ferramentas, dados e receitas, visa escalar o desenvolvimento de agentes de uso de computador (CUAs).
Tecnologia e abordagem
O OpenCUA utiliza um método inovador que inclui a ferramenta AgentNet, que grava demonstrações humanas de tarefas computacionais em diferentes sistemas operacionais. Essa abordagem permite a captura de dados, como gravações de tela e entradas de mouse e teclado, convertendo-os em “trajetórias de estado-ação”, o que facilita o treinamento de modelos com base em visão e linguagem (VLMs).
De acordo com os pesquisadores, simplesmente treinar modelos com esses pares de dados não mostrou ganhos significativos de desempenho. Assim, introduziram o raciocínio “chain-of-thought” (CoT), que fornece um monólogo interno detalhado para cada ação, aumentando a compreensão da tarefa.
A aplicação e desempenho
Os modelos treinados com o framework OpenCUA demonstraram desempenho superior em benchmarks de CUA, superando modelos open source existentes. O modelo com 32 bilhões de parâmetros, OpenCUA-32B, estabeleceu uma nova taxa de sucesso entre modelos open source, alcançando resultados que competem com os de sistemas proprietários, como os da OpenAI e Anthropic. Os pesquisadores também coletaram o conjunto de dados AgentNet, que possui mais de 22.600 demonstrações de tarefas em ambientes como Windows, macOS e Ubuntu.
“Essas limitações coletivas dificultam os avanços em CUAs de uso geral e restringem uma exploração significativa de sua escalabilidade, generalização e potenciais abordagens de aprendizado.”
(“These limitations collectively hinder advances in general-purpose CUAs and restrict a meaningful exploration of their scalability, generalizability, and potential learning approaches.”)— Pesquisadores, Universidade de Hong Kong
Impacto e mercado
O impacto do OpenCUA se destaca no setor empresarial, onde soluções que automatizam fluxos de trabalho repetitivos podem trazer eficiência significativa. Apesar dos avanços, questões de segurança e confiabilidade ainda precisam ser abordadas antes da implementação em cenários práticos. Os pesquisadores forneceram o código, conjunto de dados e pesos para seus modelos, facilitando a adoção por desenvolvedores e líderes de produto.
“A maior desafio na implantação real é a segurança e confiabilidade: o agente deve evitar erros que possam acidentalmente alterar configurações do sistema ou causar efeitos colaterais nocivos.”
(“The biggest challenge in real deployment is safety and reliability: the agent must avoid mistakes that could inadvertently alter system settings or trigger harmful side effects beyond the intended task.”)— Xinyuan Wang, Coautor e Doutorando, HKU
À medida que frameworks como o OpenCUA se tornam mais capazes, eles podem transformar a relação entre trabalhadores do conhecimento e seus computadores, onde a habilidade em software complexo se torna menos relevante do que a capacidade de articular objetivos para um agente de IA.
Fonte: (VentureBeat – AI)