
São Paulo — InkDesign News —
Pesquisadores da Meta apresentaram um novo modelo de aprendizado de máquina chamado CoCoMix, que visa melhorar a capacidade dos modelos de linguagem em compreender conceitos e se adaptar durante a inferência.
Arquitetura de modelo
O CoCoMix (Jihoon et al., 2025) foi projetado para ir além da previsão de tokens, permitindo um aprendizado conceitual mais profundo. O desafio central permanece na recuperação de informações fatuais durante a implantação, especialmente quando essas informações estão fora da janela de contexto do modelo.
Pesquisadores exploraram o conceito de memória adaptativa em modelos de linguagem, implementando componentes distintos de memória: a Memória de Curto Prazo (MCP), a Memória de Longo Prazo (MLP) e a Memória Persistente (MP). A MLP é a mais inovadora, permitindo que o modelo aprenda em tempo real, ajustando seus parâmetros sem necessidade de dados rotulados externos.
“O modelo se adapta a novos dados durante a inferência.” (“The model adapts to new data during inference.”) — Jihoon Tack, Pesquisador, Meta.
Treinamento e otimização
O uso da MLP desemboca em uma estratégia de aprendizado associativo, onde a nova informação é mapeada a chaves e valores. A atualização de parâmetros é um passo crucial que visa reduzir a surpresa em relação a novas entradas, mensurada pela função de perda. O modelo inova ainda mais ao incorporar memórias de surpresas passadas, o que permite esquecer informações irrelevantes.
Os pesquisadores testaram várias arquiteturas, incluindo a Memória como Contexto e Memória como Camada, para otimizar a interação entre os módulos de memória. A Menor Complexidade do Tempo foi alcançada com a MLP, que mostrou eficiência ao trabalhar com sequências longas, superando limitações anteriores de modelos baseados em “Transformers”.
Resultados e métricas
O desempenho do CoCoMix foi avaliado em benchmarks como S-NIAH e BABILong, onde demonstrou resultados superiores a modelos tradicionais, incluindo GPT-4. O modelo MLP manteve taxas de recuperação elevadas mesmo em sequências de 16K tokens, destacando sua habilidade em lidar com longos contextos sem perder precisão.
“Os modelos mostraram uma compreensão mais intuitiva de linguagem e contexto.” (“The models demonstrated a deeper, more intuitive grasp of language and context.”) — Ali Behrouz, Pesquisador, Meta.
Além disso, a pesquisa indicou que uma MLP mais profunda aumenta a retenção de detalhes essenciais em sequências longas, embora resulte em uma leve redução na velocidade de processamento.
A pesquisa sobre o CoCoMix abre possibilidades não apenas em linguística, mas também em previsão de séries temporais e modelagem em biologia, destacando a flexibilidade da arquitetura no tratamento de dados complexos.
Os próximos passos incluem a pesquisa aplicada em diferentes domínios para maximizar o uso da dinâmica da memória em modelos de aprendizado profundo, estabelecendo uma nova direção para a inteligência artificial adaptativa.
Fonte: (Towards Data Science – AI, ML & Deep Learning)