- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Aprimoramento de modelos de linguagem com reinforcement learning

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Recentemente, pesquisadores têm explorado técnicas de machine learning para aprimorar modelos de linguagem menores através do aprendizado por reforço, estabelecendo um novo paradigma no treinamento de algoritmos.

Arquitetura de modelo

Os modelos de linguagem pequenos, como os com menos de 1 bilhão de parâmetros, enfrentam desafios significativos devido à sua limitação em conhecimento do mundo real, o que compromete sua capacidade de raciocínio em tarefas lógicas complexas. Um estudo recente mencionou que “Modelos pequenos simplesmente não possuem o conhecimento do mundo que modelos grandes têm. Isso faz com que um modelo com menos de 1B de parâmetros careça do ‘senso comum’ necessário para raciocinar através de tarefas lógicas complexas.” (“Small models simply do not have the world knowledge that large models do. This makes < 1B parameter model lack the ‘common sense’ to easily reason through complex logical tasks.”) — Autor, Pesquisador.

Com a introdução do algoritmo de Group Relative Policy Optimization (GRPO), os pesquisadores estão agora usando uma técnica chamada aprendizado por reforço com recompensas verificáveis (RLVR). O RLVR se diferencia do aprendizado por reforço com feedback humano (RLHF), ao focar em ensinamentos que garantem respostas corretas baseadas em verificações objetivas, especialmente úteis para tarefas matemáticas e lógicas.

Treinamento e otimização

O treinamento desses modelos envolve a coleta de experiências, onde o modelo gera respostas para perguntas lógicas e é recompensado com base na correção de suas respostas. Com isso, as vantagens são calculadas para otimizar as respostas geradas. Durante suas experiências, o modelo acumula resultados e aprende a melhorar suas respostas em iterações subsequentes. Ao abordar os desafios associados aos pequenos modelos, cabe salientar que “é necessário ensinar ao modelo o comportamento que você deseja treinar usando a afinação supervisionada.” (“the recommended approach is to first teach the model the behavior you want to train using supervised fine-tuning.”) — Autor, Pesquisador.

O grupo estimulou a geração de tarefas usando um repositório específico chamado reasoning-gym, que engloba vários tipos de problemas lógicos, aumentando as opções disponíveis para treinamento. A aplicação de técnicas como LORA (Low-Rank Adaptation) também otimizou o treinamento, permitindo um ajuste eficiente das capacidades do modelo sem alterar significativamente seu funcionamento original.

Resultados e métricas

Os resultados do treinamento indicaram que modelos de linguagem pequenos como o SmolLM-135M-Instruct, após a fine-tuning supervisionada, alcançaram taxas de precisão superiores a 60%, demonstrando um avanço notável de 20% em comparação aos testes iniciais. A recompensas obtidas estavam alinhadas com a diversidade de respostas, indicando um treinamento saudável e contínuo no uso de algoritmos de aprendizado por reforço. Uma análise detalhada trouxe à luz que “a geração de respostas diversas é a chave para possibilitar o aprendizado por reforço.” (“Generating diverse responses IS KEY to making RL possible.”) — Autor, Pesquisador.

As implicações práticas desse avanço em machine learning são promissoras, com o potencial de aprimorar a interpretação de dados e a capacidade de resolver problemas complexos, ao mesmo tempo que incentiva futuros pesquisas em algoritmos mais escaláveis e generalizáveis.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!