
São Paulo — InkDesign News — Novas abordagens em machine learning têm revolucionado o panorama da inteligência artificial, especialmente com algoritmos de otimização como o Proximal Policy Optimization (PPO) e seu sucessor Generalized Reinforcement Policy Optimization (GRPO).
Arquitetura de modelo
O PPO e o GRPO são algoritmos de otimização que visam ensinar agentes a resolver tarefas complexas por meio do aprendizado por reforço. Enquanto o PPO utiliza uma rede crítica para estimar valores, o GRPO elimina a necessidade desse crítico, simplificando a estrutura do modelo e reduzindo os requisitos de memória. O GRPO realiza essa simplificação avaliando a política ao comparar resultados de ações em grupo. Isso não só reduz a carga computacional, mas também aumenta a eficiência em ambientes complexos.
“Ao deixar de lado o crítico, o GRPO evita desafios de modelos de valor e pode reduzir os requisitos computacionais pela metade.”
(“By ‘foregoing the critic,’ GRPO avoids the challenges of learning an accurate value model and saves roughly half the memory/computation.”)— Equipe DeepSeek, Pesquisadores
Treinamento e otimização
No processo de treinamento, o PPO é um algoritmo on-policy que coleta dados em tempo real do ambiente, enquanto o GRPO se concentra em comparar recompensas de um conjunto de ações, o que permite uma atualização mais robusta da política. O PPO inclui um mecanismo de clipe, que protege as atualizações do modelo contra mudanças excessivas, aumentando a estabilidade durante o treinamento. Isso o torna aplicável em muitos domínios, desde jogos até robótica.
“PPO oferece um mix convincente de estabilidade e simplicidade.”
(“To sum up, PPO offers a compelling mix of stability and simplicity.”)— OpenAI, Desenvolvedores
Resultados e métricas
Resultados preliminares indicam que o GRPO não só reduz os requisitos computacionais but também demonstra desempenho comparável ao PPO em várias tarefas de aprendizado por reforço, especialmente em modelos grandes como os de linguagem. A combinação de aprendizado em grupo com comparação de recompensas tem se mostrado eficaz em ambientes onde a aprendizagem de um modelo de valor seria difícil ou demorada.
A aplicabilidade desses algoritmos é crescente, com experimentos atuais abordando desde tarefas de geração de texto até a melhoria de agentes conversacionais. Os pesquisadores continuam explorando como o GRPO pode ser combinado com outras técnicas de otimização para avançar ainda mais na eficiência e na complexidade do aprendizado por reforço.
Fonte: (Towards Data Science – AI, ML & Deep Learning)