Google introduz abordagem Diffusion para LLM em inteligência artificial

São Paulo — InkDesign News — O recente desenvolvimento do modelo Gemini Diffusion, da Google DeepMind, marca um avanço significativo na inteligência artificial, especialmente no campo dos modelos de linguagem (LLMs). Utilizando uma abordagem de difusão, este modelo promete aumentar a velocidade e a consistência na geração de texto, abordando limitações de modelos baseados em autoregressão.
Tecnologia e abordagem
Gemini Diffusion adota uma metodologia de difusão que se diferencia da geração sequencial típica dos modelos autoregressivos. Ao invés de prever palavras uma de cada vez, este modelo começa com ruído aleatório e refina-o progressivamente até formando texto coerente. A arquitetura permite que blocos de texto sejam processados em paralelo, resultando em uma taxa de geração de 1.000 a 2.000 tokens por segundo, em comparação com os 272 tokens por segundo do modelo Gemini 2.5 Flash.
Durante o treinamento, o Gemini Diffusion corrompe uma frase com ruído em várias etapas, simultaneamente aprendendo a reverter esse processo para recuperar sentenças originais.
Aplicação e desempenho
As métricas de desempenho do Gemini Diffusion indicam que ele é comparável ao modelo Gemini 2.0 Flash-Lite em diversas tarefas. Em benchmarks de programação, o modelo alcançou 89,6% de precisão no HumanEval e 76% no MBPP, demonstrando sua aplicabilidade na geração de código e resolução de problemas matemáticos.
Os modelos de difusão apresentam “menores latências” e raciocínio não causal, permitindo a edição global dentro de um bloco para gerar texto mais coerente.
(“Diffusion models offer lower latencies and non-causal reasoning, allowing for global editing within a block to produce more coherent text.”)— Brendan O’Donoghue, Cientista de Pesquisa, Google DeepMind
Entretanto, O’Donoghue observa que os modelos de difusão podem ter um custo maior para implantação e um tempo de resposta inicial mais longo do que os modelos autoregressivos.
Impacto e mercado
A tecnologia de modelos de linguagem de difusão, como o Gemini, pode transformar aplicações que exigem alta velocidade de resposta, incluindo assistentes virtuais, tradução em tempo real e autocompletar IDEs. O’Donoghue menciona que, com aplicações que requerem “edição inline”, os modelos de difusão são vantajosos onde os nomes dos tokens podem ser ajustados em tempo real.
Conforme a tecnologia evolui, espera-se que o Gemini Diffusion alcance ou até supere modelos estabelecidos, especialmente em áreas que demandam coerência não-local e raciocínio. Essa mudança de paradigma na geração de texto promete não apenas acelerar a produção, mas também aumentar a precisão nas aplicações de inteligência artificial.
Fonte: (VentureBeat – AI)