
Pesquisadores do laboratório NeuroAI da EPFL descobriram unidades chave em modelos de inteligência artificial (AI) que são importantes para a compreensão e utilização da linguagem, refletindo o sistema linguístico do cérebro humano.
Contexto da pesquisa
A pesquisa focou em determinar se os grandes modelos de linguagem (LLMs) têm unidades ou módulos especializados que executam tarefas específicas, semelhantes às redes cerebrais humanas, como a Rede de Linguagem e a Rede de Múltiplas Demandas.
Método proposto
Os pesquisadores analisaram 18 LLMs populares, investigando a atividade das unidades ao ler sentenças reais em comparação com listas de palavras aleatórias. As unidades que mostraram maior atividade com sentenças reais foram identificadas como “unidades seletivas de linguagem” (language-selective units) e foram testadas quanto ao seu impacto em tarefas linguísticas.
As métricas de desempenho foram obtidas ao desativar essas unidades e avaliar a capacidade dos modelos em gerar texto coerente e realizar benchmarks linguísticos.
Resultados e impacto
“Os resultados mostram que essas unidades realmente importam para o modelo. A surpresa para nós foi que existem provavelmente menos de 100 neurônios — cerca de 1% das unidades — que são extremamente relevantes para a capacidade do modelo de produzir e entender linguagem.”
(“The results show that these units really matter for the model. The key surprise for us was that there are probably less than 100 neurons or so—about 1% of units—that seem to be extremely relevant for anything to do with a model’s ability to produce and understand language.”)— Badr AlKhamissi, Assistente de doutorado, EPFL
Além das unidades seletivas de linguagem, a pesquisa levantou questões sobre a existência de unidades especializadas em raciocínio e pensamento social em outros modelos. Os pesquisadores notaram que alguns modelos apresentavam essas unidades específicas, enquanto outros não, e isso poderia estar relacionado ao desempenho em benchmarks relacionados.
O trabalho sugere que entender a organização funcional dessas unidades pode oferecer insights sobre como os LLMs operam, com implicações potenciais na compreensão do funcionamento do cérebro humano.
As futuras pesquisas focarão em investigar a eficácia de modelos multi-modais, que não tratam apenas de texto, mas também integram informações visuais, sonoras e outras, levantando questões sobre possíveis déficits semelhantes observados em redes linguísticas de humanos.
Fonte: (TechXplore – Machine Learning & AI)