
São Paulo — InkDesign News — O avanço da inteligência artificial (IA) e dos modelos de linguagem de grande porte (LLMs) tem sido notável, especialmente com a introdução de sistemas que não apenas interagem com usuários, mas também realizam ações em seu nome. A DeepMind, subsidiária do Google, lançou recentemente o Gemini 2.5 Pro Computer Use, uma versão refinada de seu modelo que opera como um agente autônomo.
Tecnologia e abordagem
O Gemini 2.5 Pro Computer Use é um modelo customizado e treinado para interagir com navegadores virtuais, permitindo que realize tarefas como preencher formulários, buscar informações na web e navegar por menus, tudo por meio de um único prompt textual. O CEO do Google, Sundar Pichai, afirma que “o modelo possui a capacidade de interagir com a web – como rolar, preencher formulários e navegar em dropdowns – que é um passo importante na construção de agentes de propósito geral” ("these are early days, but the model’s ability to interact with the web – like scrolling, filling forms + navigating dropdowns – is an important next step in building general-purpose agents").
Aplicação e desempenho
Embora o acesso do consumidor ao modelo seja limitado, ele já está sendo utilizado em várias aplicações, incluindo uma parceria com a Browserbase, que fornece um navegador "headless" especificamente para agentes de IA. Durante testes realizados na plataforma Browserbase, o Gemini 2.5 demonstrou performances competitivas em benchmarks como Online-Mind2Web e WebVoyager, superando seus concorrentes em várias métricas: 65,7% e 79,9%, respectivamente.
A operação do modelo segue um ciclo de interação que envolve receber um prompt de tarefa, uma captura de tela da interface e um histórico de ações anteriores para determinar a próxima ação do usuário. Em testes, a IA conseguiu superar desafios como CAPTCHA, embora ainda apresente limitações em tarefas complexas, como a coleta de informações em múltiplas etapas.
Impacto e mercado
Com um foco em automação de interface, o Gemini 2.5 Computer Use busca facilitar a interação com aplicações web e móveis. Google está implementando o modelo em diversas equipes internas e externas, reportando uma recuperação de mais de 60% de falhas em testes e um aumento de 18% em desempenho em tarefas complexas em comparação a outros modelos.
A proposta de valor do modelo combina múltiplas medidas de segurança para garantir a ética nas interações. As ações sugeridas são inspecionadas, e tarefas de maior risco requerem confirmação do usuário. Prevê-se que o uso ampliado deste modelo possa transformar a automação no setor, gerando novas oportunidades em áreas como desenvolvimento de software, testes de interfaces e dispositivos inteligentes.
Com a ascensão de modelos como o Gemini 2.5, o futuro da interação entre máquinas e usuários pode estar se encaminhando para uma era de maior autonomia e eficiência.
Fonte: (VentureBeat – AI)