- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

Nvidia aprimora raciocínio de LLMs com técnica de pré-treino

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Pesquisadores da Nvidia apresentam uma inovação no treinamento de grandes modelos de linguagem (LLMs) por meio de uma técnica chamada “preparação de aprendizado por reforço” (RLP), que promete revolucionar o desenvolvimento de inteligência artificial.

Tecnologia e abordagem

A técnica RLP integra o aprendizado por reforço na fase inicial de treinamento dos modelos, ao invés de reservá-lo para estágios finais, como é comum. Isso possibilita que o modelo “pense por si mesmo antes de prever o que vem a seguir, ensinando um comportamento de pensamento independente mais cedo no pré-treinamento”. O método reestrutura o processo tradicional, em que os modelos são treinados a prever a próxima palavra em um texto, e enfatiza que a compreensão humana não segue esse padrão linear.

A RLP transforma a geração de raciocínios complexos em uma etapa prévia e essencial para a previsão da próxima palavra. Assim, melhora o desempenho do modelo ao recompensar as “reflexões internas” que ajudam na precisão das previsões. Essa recompensa é calculada automaticamente, eliminando a necessidade de validadores externos ou dados rotulados por humanos.

Aplicação e desempenho

Nos testes realizados com os modelos Qwen3-1.7B e Nemotron-Nano-12B, os resultados mostraram que os modelos treinados com RLP superaram os convencionais em tarefas que exigem um raciocínio mais aprofundado. A RLP apresentou uma melhoria de 17% no desempenho em relação ao pré-treinamento padrão, mantendo-se superior, mesmo quando o modelo padrão foi alimentado com 35 vezes mais dados.

Além disso, a RLP demonstrou escalabilidade ao extrair sinais de raciocínio a partir de dados da web, e não apenas de conjuntos de dados curados. Essa técnica é capaz de aprimorar o aprendizado do modelo, fisicamente incluindo um ciclo contínuo de feedback.

Impacto e mercado

A implementação da RLP pode trazer benefícios significativos para empresas, resultando em saídas mais confiáveis em fluxos de trabalho complexos, como análise financeira e resumo de documentos legais.

“A RLP incentiva o modelo durante o pré-treinamento a pensar antes de prever, ajudando a internalizar um estilo de raciocínio mais coerente”
(“RLP encourages the model during pretraining to think before it predicts, helping the model internalize a more coherent reasoning style.”)

— Bryan Catanzaro, VP de Pesquisa em Deep Learning Aplicado, Nvidia

.

Embora a RLP não substitua as etapas posteriores de refinamento de modelos, como o ajuste fino supervisionado ou o aprendizado por reforço a partir do feedback humano, ela oferece uma base mais sólida para o aprendizado do modelo. Os pesquisadores acreditam que essa nova abordagem não apenas melhora a eficiência, mas também redefine como os modelos aprendem a raciocinar desde o início.

O futuro sugere uma transformação no processo de pré-treinamento de modelos de IA, abrindo caminho para combinações mais sofisticadas de objetivos de aprendizado, que potencialmente levarão a avanços em como as IAs compreendem e processam informações complexas.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!