Mixture-of-recursions duplica velocidade de inferência em AI

São Paulo — InkDesign News —
Pesquisadores do KAIST AI e do Mila apresentaram uma nova arquitetura de Transformer que torna modelos de linguagem grande (LLMs) mais eficientes em termos de memória e computação. O modelo, denominado Mixture-of-Recursions (MoR), promete melhorias significativas na precisão e no desempenho em comparação com Transformers convencionais, mesmo sob restrições semelhantes de contagem de parâmetros e orçamento computacional.
Tecnologia e abordagem
Mixture-of-Recursions combina técnicas de compartilhamento de parâmetros com computação adaptativa. Esta arquitetura se baseia em Transformers Recursivos, que repetidamente aplicam um conjunto de camadas compartilhadas. Em vez de um empilhamento profundo de camadas exclusivas, um Transformer Recursivo divide o modelo em "blocos de recursão", cada um com um pool compartilhado de parâmetros. Este design permite um maior poder computacional sem aumentar o tamanho do modelo.
O MoR incorpora dois componentes principais. O primeiro é um roteador leve que atribui dinamicamente uma profundidade de recursão a cada token, permitindo que o modelo decida quão aprofundada deve ser sua análise com base na complexidade do token. O segundo componente é uma nova estratégia de cache de chave-valor (KV), que armazena informações de tokens anteriores apenas para aqueles que ainda estão ativos, o que reduz o tráfego de memória.
“Em essência, o MoR permite que os modelos ajustem sua profundidade de raciocínio de forma eficiente, unindo eficiência de parâmetros com computação adaptativa.”
(“In essence, MoR enables models to efficiently adjust their thinking depth on a per-token basis, unifying parameter efficiency with adaptive computation.”)— Sangmin Bae, Pesquisador, KAIST
Aplicação e desempenho
Os pesquisadores treinaram modelos MoR com parâmetros variando de 135 milhões a 1,7 bilhão e os compararam com modelos Transformers convencionais e recursivos em termos de perda de validação e precisão em poucos exemplos. Os resultados mostraram uma precisão de poucos exemplos média 43,1% com o modelo MoR, enquanto o baseline convencional ficou em 42,3%, com 50% menos parâmetros.
Quando os modelos foram treinados com o mesmo orçamento de computação, o MoR reduziu o tempo de treinamento em 19% e o uso máximo de memória em 25%. Embora tenha apresentado desempenho inferior em modelos menores, a diferença diminuiu rapidamente conforme o tamanho do modelo aumentava. Em configurações MoR, o desempenho de inferência foi até 2,06 vezes mais rápido em comparação com o baseline, resultando em economias operacionais significativas para empresas que operam em grande escala.
Impacto e mercado
A adoção do MoR por corporações pode se dar através do "uptraining" de modelos existentes, uma abordagem mais econômica do que o treinamento de novos modelos. O modelo possui flexibilidade arquitetural, permitindo ajustes entre desempenho e eficiência, dependendo das necessidades da aplicação.
“Para tarefas mais simples, pode ser benéfico usar modelos com mais passos de recursão, oferecendo maior flexibilidade” disse Bae, enfatizando que as configurações ideais dependem do ambiente de implantação específico.
A arquitetura MoR é descrita como "agnóstica em relação à modalidade", abrindo possibilidades de aplicação não apenas em texto, mas também em vídeo, áudio e outros tipos de dados complexos. “Estamos muito animados com sua potencial extensão para cenários multimodais, onde os ganhos de eficiência são cruciais”, concluiu Bae.
Com implicações significativas para o futuro da inteligência artificial leve, o framework MoR aponta um caminho eficiente para que as empresas adotem capacidades de modelos grandes, reduzindo a sobrecarga computacional e de memória.
Fonte: (VentureBeat – AI)