
São Paulo — InkDesign News — O campo de “machine learning” tem avançado com novas abordagens para entender modelos como os “transformers”. Neste artigo, discutimos a nova perspectiva sobre atenção, sua relação com LSTMs e o impacto em futuras pesquisas.
Arquitetura de modelo
Os “transformers” utilizam uma arquitetura baseada em mecanismos de atenção, onde as matrizes Query (Q), Key (K) e Value (V) desempenham papéis cruciais. Ao contrário da percepção tradicional, onde as cabeças de atenção são concatenadas antes da projeção final, uma nova interpretação sugere que a projeção da matriz O é aplicada de forma independente por cabeça. Isso leva a uma visão mais clara onde Q e K formam o que se chama de padrões, enquanto V representa as mensagens transmitidas.
“Os cabeçotes são independentes e separáveis até o final.”
(“The heads are independent and separable until the end.”)— Autor, especialista em IA
Treinamento e otimização
Tradicionalmente, a computação de atenção no treinamento leva a um modelo em que operações são vistas como uma cadeia de transformações. A interpretação mecanicista propõe que essas operações são aditivas, utilizando um “fluxo residual” que preserva a memória. Isso altera a forma como abordamos o treinamento, permitindo uma atualização contínua de dados em vez de meras transformações temporárias.
“As operações são vistas como aditivas em vez de transformadoras.”
(“The operations are seen as additive instead of transformative.”)— Autor, especialista em IA
Resultados e métricas
Com essa abordagem reformulada, a análise de similaridade entre embeddings melhora, simplificando a relação entre padrões e mensagens. Isso não apenas tem implicações para o treinamento, mas também melhora a acurácia dos modelos ao lidar com dependências de longo prazo. Enquanto os LSTMs são limitados a sequências, os transformers oferecem processamento em paralelo, aumentando significativamente a eficiência.
“Transformers funcionam de maneira paralela, enquanto os LSTMs operam sequencialmente.”
(“Transformers work in parallel, whereas LSTMs operate sequentially.”)— Autor, especialista em IA
As aplicações desses conceitos são amplas, variando desde processamento de linguagem natural até sistemas de recomendação. Com os próximos passos em pesquisa, espera-se que essa reinterpretação continue a influenciar o desenvolvimento de melhoramentos em modelos de inteligência artificial.
Fonte: (Towards Data Science – AI, ML & Deep Learning)