
São Paulo — InkDesign News —
Pesquisadores da UCLA e Meta AI desenvolveram o d1, um framework que utiliza reinforcement learning para aprimorar significativamente as capacidades de raciocínio de modelos de linguagem baseados em difusão (dLLMs). Essa inovação pode gerar ganhos importantes em eficiência e aplicações práticas no mercado de inteligência artificial, especialmente para empresas que demandam agilidade e qualidade no processamento de linguagem natural.
Tecnologia e abordagem
Diferentemente dos modelos autoregressivos tradicionais, como GPT, que geram texto sequencialmente prevendo o próximo token a partir dos anteriores, os modelos de linguagem por difusão (dLLMs) funcionam por meio de um processo iterativo de “desmascaramento” de tokens. Inicialmente, o texto é fragmentado e mascarado; depois, o modelo gradualmente reconstrói a sequência completa, considerando o contexto global simultaneamente em cada etapa. Esse método, originado em modelos de geração de imagem como DALL-E 2 e Stable Diffusion, apresenta vantagens como processamento paralelo e potencial melhora na velocidade inferencial.
O desafio com dLLMs é que sua estrutura torna complexa e custosa a aplicação direta de técnicas de reinforcement learning, amplamente usadas para reforçar o raciocínio em modelos autoregressivos. O framework d1 propõe uma solução em duas etapas: fine-tuning supervisionado com exemplos detalhados de raciocínio e um treinamento por RL usando o algoritmo diffu-GRPO, que introduz uma forma eficiente de estimar probabilidades logarítmicas evitando cálculos caros, além de uma técnica inovadora chamada “random prompt masking” que promove regularização e aumento de dados.
“Enquanto modelos autoregressivos utilizam raciocínio para melhorar a qualidade, isso gera um custo computacional severo, com latências superiores a 30 segundos para uma única resposta… dLLMs de ponta podem superar os melhores modelos autoregressivos otimizados para velocidade em 10 vezes no throughput de usuários.”
(“While autoregressive LLMs can use reasoning to enhance quality, this improvement comes at a severe compute cost with frontier reasoning LLMs incurring 30+ seconds in latency to generate a single response… frontier dLLMs like Mercury can outperform the best speed-optimized autoregressive LLMs from frontier labs by 10x in user throughputs.”)— Aditya Grover, Professor, UCLA
Aplicação e desempenho
O d1 foi aplicado no modelo open-source LLaDA-8B-Instruct e avaliado contra benchmarks de raciocínio matemático (GSM8K, MATH500) e lógico (4×4 Sudoku, Countdown number game). O modelo integrado com d1 apresentou desempenho superior consistentemente, superando versões com apenas fine-tuning ou apenas diffu-GRPO, evidenciando robustez e capacidade de autocorreção, além de aprendizagem de estratégias de resolução mais complexas.
“Modelos dLLMs aprimorados para raciocínio como o d1 podem alimentar diversos agentes para cargas de trabalho empresariais, incluindo agentes de codificação para engenharia de software instantânea e pesquisas profundas ultrarrápidas para estratégias e consultorias em tempo real…”
(“Reasoning-enhanced dLLMs like d1 can fuel many different kinds of agents for enterprise workloads, including coding agents for instantaneous software engineering, as well as ultra-fast deep research for real-time strategy and consulting…”)— Aditya Grover, Professor, UCLA
Impacto e mercado
O avanço do d1 pode alterar a dinâmica entre modelos autoregressivos e de difusão no mercado, especialmente para empresas que enfrentam limitações de latência e custo. Segundo Grover, o modelo d1 pode superar os autoregressivos em qualidade, velocidade e custo, oferecendo uma alternativa plug-and-play para integração imediata em aplicações corporativas. Isso pode impulsionar automação e aceleração de fluxos de trabalho digitais, especialmente em setores que demandam respostas rápidas e raciocínio avançado.
Como próximos passos, o aprimoramento de frameworks como o d1 e sua escalabilidade podem fomentar o desenvolvimento de agentes cada vez mais eficientes, combinando raciocínio profundo com alta performance computacional, ampliando o alcance e a aplicabilidade dos LLMs no mercado empresarial.
Fonte: (VentureBeat – AI)