
São Paulo — InkDesign News — Pesquisadores da Universidade de Illinois em Urbana-Champaign desenvolveram uma nova abordagem para o ajuste fino de modelos de linguagem de grande porte (LLM), visando mitigar o fenômeno conhecido como "esquecimento catastrófico". Esse comportamento ocorre quando LLMs perdem habilidades previamente adquiridas após serem refinados para novas tarefas.
Tecnologia e abordagem
O estudo destaca dois modelos específicos, LLaVA e Qwen 2.5-VL, que geram respostas a partir de imagens. Os pesquisadores introduziram um método que permite o re-treinamento de partes específicas do modelo em vez de reformular a totalidade, almejando economizar custos de processamento. A equipe afirma que o "esquecimento catastrófico" não é uma perda permanente de memória, mas o resultado de um desvio de viés na distribuição de saída.
Aplicação e desempenho
Para investigar o fenômeno, os pesquisadores definiram um conjunto de tarefas-alvo e avaliaram os modelos durante e após o ajuste fino. Inicialmente, observaram uma queda significativa em benchmarks independentes, mas notaram que os modelos conseguiam recuperar parte de suas habilidades. Isso foi especialmente evidente ao treinar para uma tarefa de contagem, seguido de uma recuperação nas avaliações de PathVQA. Durante experimentos de mitigação do esquecimento, ao ajustar apenas as camadas de projeção de autoatenção, os pesquisadores obtiveram resultados positivos sem perdas de desempenho.
“O que parece ser esquecimento ou interferência após o ajuste em uma tarefa-alvo restrita é na verdade um viés na distribuição de saída devido à mudança na distribuição de tarefas.”
(“what looks like forgetting or interference after fine-tuning on a narrow target task is actually bias in the output distribution due to the task distribution shift.”)— Equipe de Pesquisa, Universidade de Illinois Urbana-Champaign
Impacto e mercado
A pesquisa sugere que ao focar em segmentos restringidos do modelo, as empresas podem reduzir significativamente os custos de computação e controlar melhor a deriva da saída. Essa abordagem também traz maior reprodutibilidade no ajuste fino de modelos de IA. Contudo, a limitação da pesquisa a apenas dois modelos — um significativo desafio, considerando a diversidade da IA — levanta questões sobre a aplicabilidade em outros contextos.
O avanço na mitigação do "esquecimento catastrófico" pode abrir novas perspectivas no desenvolvimento de aplicações práticas em diversas áreas, reforçando a importância de abordagens econômicas em um cenário de IA em rápida evolução.
Próximos passos incluem a validação da técnica em outros modelos e contextos, potencialmente ampliando seu impacto na indústria.
Fonte: (VentureBeat – AI)