
Com o avanço dos modelos de linguagem, como o ChatGPT, a pesquisa em machine learning busca atender às crescentes demandas por respostas mais rápidas e precisas a prompts complexos.
Contexto da pesquisa
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) e do Google desenvolveram uma nova abordagem para a decodificação paralela em modelos de linguagem. O desafio tradicional reside na forma como os modelos decodificam as respostas, gerando cada token sequencialmente, o que resulta em um tempo de espera significativo para solicitações mais complicadas.
Método proposto
A equipe introduziu o método de PASTA (Parallel Structure Annotation), que utiliza um processo de aprendizado para identificar e decodificar partes semanticamente independentes do texto em paralelo. Esse método se afasta de regras rígidas e permite que os modelos reconheçam automaticamente oportunidades de paralelização. O processo inclui uma linguagem de anotação, chamada PASTA-LANG, que instrui os LLMs (Modelos de Linguagem de Grande Escala) a etiquetar partes de suas respostas que podem ser geradas simultaneamente.
“Os LLMs tradicionais são como um único cozinheiro fazendo uma lasanha, passo a passo. O PASTA ensina o cozinheiro a reconhecer quando diferentes partes da lasanha podem ser preparadas ao mesmo tempo, levando a um processo muito mais rápido.”
(“Traditional LLMs are like a single cook making lasagna, one step at a time. PASTA teaches the cook to recognize when different parts of the lasagna can be prepared simultaneously, like mixing a subset of ingredients while the oven preheats, leading to a much faster process overall.”)— Tian Jin, Autor Principal, CSAIL
Resultados e impacto
Em testes realizados com o benchmark AlpacaEval, o modelo autônomo de paralelização apresentou aumentos de desempenho geométricos chegando a quase duas vezes mais rápido, com mudanças mínimas na qualidade da resposta (variando de um ganho de 2% a uma queda de 7%). Isso sugere que os usuários podem esperar respostas quase duas vezes mais rápidas sem redução significativa na precisão ou coerência.
“Foi surpreendente ver esse comportamento de um LLM orquestrando seu próprio comportamento em tempo de inferência. Foi iluminador — e, de certa forma, mágico — observar como aumentar a computação nesses algoritmos resulta em um comportamento de auto-orquestração cada vez mais sofisticado.”
(“It was surprising to see this behavior of having an LLM orchestrate its own inference-time behavior. It was illuminating—and in a way, magical—to see how throwing more compute at these algorithms yields increasingly sophisticated self-orchestration behavior.”)— Tian Jin, Autor Principal, CSAIL
Com o PASTA, a pesquisa aponta para um futuro em que a latência de decodificação em modelos de linguagem pode ser significativamente reduzida, o que poderia democratizar o acesso a esses modelos de AI a um público mais amplo. Jin e sua equipe estão otimistas quanto às implicações mais amplas de sua descoberta, que inclui a possibilidade de reduzir as exigências de recursos computacionais para esses poderosos modelos.
Fonte: (TechXplore – Machine Learning & AI)