
São Paulo — InkDesign News — A recente pesquisa de laboratórios como Meta, Google DeepMind, Cornell University e NVIDIA revelou novas perspectivas sobre a capacidade de memorização versus generalização em modelos de linguagem de grande escala (LLMs). Esses modelos são fundamentais na área de inteligência artificial e deep learning, pois são alimentados por imensos conjuntos de dados que os ajudam a compreender padrões da linguagem.
Tecnologia e abordagem
A investigação se concentrou na capacidade dos modelos GPT de memorizar informações, com uma descoberta significativa: cada parâmetro dos modelos tem uma capacidade de memorização fixa de aproximadamente 3,6 bits. Para colocar isso em perspectiva, “a capacidade de armazenar 3,6 bits permite aproximadamente 12,13 valores distintos” (a capacity to store 3.6 bits allows for approximately 12.13 distinct values), conforme descrito pelos investigadores. Essa abordagem é inovadora, pois utilizaram dados uniformemente aleatórios para traçar uma relação direta entre a capacitação dos modelos e a quantidade de informação retida.
Aplicação e desempenho
Os pesquisadores treinam modelos em conjuntos de dados que não apresentam padrões, o que minimiza a influência da generalização. Em testes, “um modelo de 500K parâmetros pode memorizar cerca de 1,8 milhões de bits” (a 500K-parameter model can memorize roughly 1.8 million bits), significando que um modelo de 1,5 bilhão de parâmetros poderia armazenar 675 megabytes de informação. Além disso, a pesquisa indica que a memorização não se intensifica com o aumento da quantidade de dados; em vez disso, a capacidade de memorização é diluída em um conjunto maior, resultando em um comportamento de generalização mais seguro.
Impacto e mercado
Essas descobertas têm implicações importantes para a indústria em relação a preocupações com a privacidade e o uso de dados protegidos por direitos autorais. Se os LLMs são mais propensos a generalizar do que memorizar, as preocupações com o plágio e violação de direitos autorais podem diminuir. “Mais dados levam a um comportamento de generalização mais seguro e não a um risco aumentado” (more training data leads to safer generalization behavior, not increased risk), afirma Jack Morris, autor principal do estudo. Isso pode influenciar muitos processos legais envolvendo fornecedores de IA e criadores de dados.
Essas investigações não apenas aumentam a transparência dos modelos de linguagem, mas também fornecem novas ferramentas para entender seu comportamento em conformidade com padrões de privacidade e ética. O próximo passo é aprofundar a análise em dados únicos e estilizados, que ainda podem ser mais suscetíveis à memorização.
Fonte: (VentureBeat – AI)