Modelo de regressão bilinear explica como AI aprende sequências

Pesquisadores da EPFL desenvolveram um modelo matemático que explica como a divisão de linguagem em sequências torna os chatbots modernos, como o ChatGPT, impressionantes na compreensão e uso de palavras. O trabalho foi publicado na revista Physical Review X.
Contexto da pesquisa
O avanço da tecnologia de IA, especialmente em modelos de linguagem grandes (LLMs), está transformando o cenário atual. Entretanto, as bases de funcionamento desses sistemas ainda são uma área de investigação científica ativa. Os LLMs são compostos por redes neurais que processam longas sequências de “tokens”. Cada token representa uma palavra ou parte dela, sendo representada por uma lista de números, chamada de “vetor de alta dimensão”. Isso captura o significado e o uso da palavra.
Método proposto
O novo modelo, denominado regressão sequencial bilinear (BSR), abstrai a complexidade dos sistemas de IA existentes, preservando sua estrutura essencial. Este modelo permite que os pesquisadores analisem como os modelos aprendem a partir de sequências. No BSR, cada palavra é transformada em uma lista numérica disposta em uma tabela, permitindo que a sequência inteira seja analisada. Em vez de processar todas as informações simultaneamente, o BSR examina as linhas da tabela de uma forma e as colunas de outra, usando esses dados para prever um único resultado, como o sentimento da frase.
“O poder do BSR é que é simples o suficiente para ser totalmente resolvido matematicamente, permitindo observar quando o aprendizado baseado em sequência passa a ser efetivo.”
(“The power of BSR is that it is simple enough to be fully solved with mathematics, allowing researchers to see when sequence-based learning starts to work.”)— Lenka Zdeborová, Pesquisadora, EPFL
Resultados e impacto
Os resultados do modelo BSR indicam que ele fornece uma nova perspectiva sobre por que a abordagem sequencial, utilizando embeddings, resulta em desempenho superior. O modelo revelou limites precisos onde o aprendizado se torna eficaz após o sistema “ver” um número suficiente de exemplos. Essas informações oferecem um marco matemático claro, importante para futuras inovações em sistemas de IA, prometendo modelos mais simples, eficientes e possivelmente mais transparentes.
Esse estudo abre possibilidades para o desenvolvimento de abordagens alternativas em aprendizado de máquina e inteligência artificial, visando a construção de sistemas mais robustos e interpretáveis, que podem ser aplicados em diversas áreas, desde análise de sentimentos até tradução automática.
Fonte: (TechXplore – Machine Learning & AI)