Era da experiência impulsiona agentes AI de autoaprendizado na web

São Paulo — InkDesign News —
A inteligência artificial (IA) está prestes a entrar na chamada "Era da Experiência", onde os sistemas deixarão de depender quase exclusivamente de dados fornecidos por humanos e passarão a se aprimorar por meio da coleta contínua de dados próprios, interagindo com o ambiente de forma autônoma. Essa nova fase tem como base avanços em modelos de deep learning combinado com aprendizado por reforço, revelando um modelo de aprendizado adaptativo e mais autônomo para agentes inteligentes.
Tecnologia e abordagem
O conceito da Era da Experiência foi detalhado em um artigo recente pelos cientistas David Silver e Richard Sutton, pioneiros em aprendizado por reforço. Eles destacam que o progresso atual, predominantemente baseado em aprendizado supervisionado com dados humanos, está desacelerando. A solução proposta é permitir que os agentes de IA aprendam "constantemente a partir de sua própria experiência, ou seja, dados gerados pela interação direta com o ambiente" (“data that is generated by the agent interacting with its environment”). Isso transforma os dados de experiência na principal forma de evolução dos sistemas, superando a escala atual dos dados humanos.
Silver e Sutton detalham quatro dimensões principais para esses agentes:
- Fluxos contínuos de experiência que permitem aprendizado ao longo do tempo, superando episódios desconectados;
- Ações e observações autônomas que não se limitam à interação humana e incluem manipulação do ambiente real;
- Recompensas dinâmicas auto-geradas ajustadas às preferências e sinais do mundo real — já com protótipos como o Nvidia DrEureka;
- Planejamento e raciocínio avançados que utilizam linguagens não humanas e modelos de mundo mais eficientes para validação e adaptação contínua.
Aplicação e desempenho
Modelos recentes de LLM com arquitetura de deep reinforcement learning demonstram a eficácia dessa abordagem. Sistemas como o DeepSeek-R1, que operam com sinais simples de recompensa, já provam que o aprendizado por reforço é suficiente para habilidades complexas de raciocínio. Ao se autogerarem recompensas e interagirem autonomamente com múltiplos ambientes — desde softwares até dispositivos físicos — esses agentes evoluem sem limitações impostas por dados humanos fixos. Isso reflete uma evolução dos agentes restritos a ambientes controlados, como jogos, para aplicações em ambientes reais e dinâmicos.
Impacto e mercado
Para o mercado e desenvolvedores, a Era da Experiência requer mudanças significativas na estruturação de sistemas e APIs. Aplicativos deverão ser construídos para favorecer tanto a interação humana quanto a interatividade autônoma dos agentes, com interfaces acessíveis que suportem ações e observações digitais. Protocolos como o Google Agent2Agent e o Model Context Protocol (MCP) serão fundamentais para facilitar a comunicação e a colaboração entre agentes.
“O agente pode usar ações e observações ‘amigáveis ao humano’, como interfaces de usuário, que facilitam a comunicação e colaboração, ao mesmo tempo em que pode executar códigos e chamar APIs para agir autonomamente conforme seus objetivos.”
(“The agent may use ‘human-friendly’ actions and observations such as user interfaces, that naturally facilitate communication and collaboration with the user. The agent may also take ‘machine-friendly’ actions that execute code and call APIs, allowing the agent to act autonomously in service of its goals.”)— David Silver e Richard Sutton, Cientistas de IA
Isso sugere que bilhões de agentes autônomos irão operar no futuro próximo, demandando novas estratégias para garantir segurança, eficiência e interoperabilidade, além de criar oportunidades para automações avançadas e personalizadas em escala empresarial.
O avanço da Era da Experiência pode redefinir a maneira como sistemas de IA são treinados e aplicados, tornando-os mais adaptativos, autossuficientes e integrados ao mundo real. Isso abre caminho para uma inteligência artificial cada vez mais próxima da superinteligência, com aprendizado contínuo e autônomo.
Fonte: (VentureBeat – AI)