Nova técnica de Markov desbloqueia raciocínio em AI de milhões de tokens

São Paulo — InkDesign News — Pesquisadores do Mila apresentaram uma nova técnica que promete aumentar drasticamente a eficiência dos modelos de linguagem de grande escala (LLMs) ao realizar raciocínios complexos. Chamado de Markovian Thinking, esse método permite que os LLMs realizem raciocínios longos sem enfrentar os altos custos computacionais que limitam essas operações.
Tecnologia e abordagem
A nova abordagem transforma o estado de raciocínio do modelo em uma sequência de blocos de tamanho fixo, o que ajuda a quebrar o problema de escalabilidade que afeta as respostas muito longas de LLMs. O Markovian Thinker mantém constante o tamanho da janela de contexto durante o raciocínio. Esse mecanismo é implementado por meio do ambiente Delethink, que organiza o raciocínio em blocos contíguos de tokens, como 8.000 de cada vez. Após atingir esse limite, o ambiente redefine o contexto, criando um novo prompt que inclui a consulta original mais um breve “carryover” do bloco anterior.
Aplicação e desempenho
Os pesquisadores treinaram o modelo R1-Distill-1.5B utilizando Delethink em um conjunto de dados de problemas matemáticos. Em comparação com métodos tradicionais de LongCoT, a abordagem mostrou-se mais eficiente. O modelo foi capaz de raciocinar com até 24.000 tokens, alcançando desempenho igual ou superior ao dos modelos LongCoT em benchmarks matemáticos.
Os resultados indicam que o *Delethink* utiliza seus tokens de raciocínio de forma tão eficaz quanto o LongCoT-RL, mas com menor custo computacional.
(“Overall, these results indicate that Delethink uses its thinking tokens as effectively as LongCoT-RL with reduced compute.”)— Pesquisadores, Mila
Adicionalmente, a eficiência se destaca na inferência, o custo operacional predominante para a maioria das empresas, permitindo que modelos treinados em Markovian Thinking mantenham as vantagens de computação linear após o treinamento.
Impacto e mercado
Com a nova abordagem, a estimativa é de que treinar um modelo para uma média de raciocínio de 96.000 tokens exigiria 27 meses de GPU H100 com LongCoT, contra apenas 7 meses com Delethink. Essa diferença substancial de eficiência pode ter grandes implicações para aplicações empresariais.
Modelos treinados em *Markovian Thinking* podem raciocinar por muito tempo, abrindo caminho para a descoberta científica.
(“Markovian Thinking… opens the path for models that can ‘think’ for very long horizons, which we view as a necessary step toward eventual scientific discovery.”)— Amirhossein Kazemnejad, Pesquisador, Mila
À medida que o Markovian Thinking avança, a possibilidade de que modelos de próxima geração pensem em escalas de milhões de tokens se torna mais viável, o que pode redefinir o futuro das capacidades da inteligência artificial.
Fonte: (VentureBeat – AI)