- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

PPO e GRPO otimizam políticas em machine learning

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Novas abordagens em machine learning têm revolucionado o panorama da inteligência artificial, especialmente com algoritmos de otimização como o Proximal Policy Optimization (PPO) e seu sucessor Generalized Reinforcement Policy Optimization (GRPO).

Arquitetura de modelo

O PPO e o GRPO são algoritmos de otimização que visam ensinar agentes a resolver tarefas complexas por meio do aprendizado por reforço. Enquanto o PPO utiliza uma rede crítica para estimar valores, o GRPO elimina a necessidade desse crítico, simplificando a estrutura do modelo e reduzindo os requisitos de memória. O GRPO realiza essa simplificação avaliando a política ao comparar resultados de ações em grupo. Isso não só reduz a carga computacional, mas também aumenta a eficiência em ambientes complexos.

“Ao deixar de lado o crítico, o GRPO evita desafios de modelos de valor e pode reduzir os requisitos computacionais pela metade.”
(“By ‘foregoing the critic,’ GRPO avoids the challenges of learning an accurate value model and saves roughly half the memory/computation.”)

— Equipe DeepSeek, Pesquisadores

Treinamento e otimização

No processo de treinamento, o PPO é um algoritmo on-policy que coleta dados em tempo real do ambiente, enquanto o GRPO se concentra em comparar recompensas de um conjunto de ações, o que permite uma atualização mais robusta da política. O PPO inclui um mecanismo de clipe, que protege as atualizações do modelo contra mudanças excessivas, aumentando a estabilidade durante o treinamento. Isso o torna aplicável em muitos domínios, desde jogos até robótica.

“PPO oferece um mix convincente de estabilidade e simplicidade.”
(“To sum up, PPO offers a compelling mix of stability and simplicity.”)

— OpenAI, Desenvolvedores

Resultados e métricas

Resultados preliminares indicam que o GRPO não só reduz os requisitos computacionais but também demonstra desempenho comparável ao PPO em várias tarefas de aprendizado por reforço, especialmente em modelos grandes como os de linguagem. A combinação de aprendizado em grupo com comparação de recompensas tem se mostrado eficaz em ambientes onde a aprendizagem de um modelo de valor seria difícil ou demorada.

A aplicabilidade desses algoritmos é crescente, com experimentos atuais abordando desde tarefas de geração de texto até a melhoria de agentes conversacionais. Os pesquisadores continuam explorando como o GRPO pode ser combinado com outras técnicas de otimização para avançar ainda mais na eficiência e na complexidade do aprendizado por reforço.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!