Pesquisadores revelam ingredientes ocultos da criatividade em IA

Paris — InkDesign News — Pesquisadores da École Normale Supérieure (Paris) e da Universidade Stanford identificaram, em estudo apresentado à International Conference on Machine Learning 2025, o mecanismo por trás da criatividade dos modernos modelos de difusão — tecnologia central em ferramentas de geração de imagens por inteligência artificial, como DALL·E e Stable Diffusion. A investigação, liderada por Mason Kamb e Surya Ganguli, revelou que a “criatividade” desses sistemas resulta diretamente de imperfeições técnicas ao remontar imagens a partir do ruído digital.
O Contexto da Pesquisa
O avanço da inteligência artificial em tarefas intelectuais, contrastando com sua limitação em atividades físicas, surpreende pesquisadores há anos. Sistemas capazes de vencer seres humanos em xadrez ou compor sonetos deslocaram o debate sobre IA do campo físico para o cognitivo. No entanto, enquanto modelos de difusão deveriam, teoricamente, apenas memorizar e replicar imagens do treinamento, eles produzem composições inéditas a partir dos dados originais. A origem desse fenômeno, até então, permanecia um enigma.
A “criatividade” dos modelos de difusão não decorre de imitação, mas emerge de características fundamentais de seu funcionamento: a atenção local a pequenos trechos (‘patches’) e a garantia de coerência estrutural por meio da equivariância translacional.
(“If they worked perfectly, they should just memorize,” he said. “But they don’t – they’re actually able to produce new samples.”)— Giulio Biroli, Pesquisador em IA e Física, École Normale Supérieure
Resultados e Metodologia
Os pesquisadores descreveram em detalhes o processo de geração dos modelos de difusão, que convertem uma imagem em ruído digital e depois atuam para “remontá-la”. Inspirados por fenômenos da biologia — como padrões de Turing no desenvolvimento embrionário —, Kamb e Ganguli criaram o “equivariant local score (ELS) machine”, um sistema analítico que simula apenas as restrições de localidade e equivariância, sem recorrer a aprendizado prévio.
Ao comparar os resultados gerados pelo ELS com aqueles obtidos de modelos de difusão amplamente usados, como ResNets e UNets, a correspondência foi, segundo os autores, “chocante”: os padrões formados pelo ELS reproduziam os das IAs com até 90% de precisão média.
“Assim que se impõe a localidade, a criatividade surge automaticamente, de modo natural pelas dinâmicas do modelo.”
(“As soon as you impose locality, [creativity] was automatic; it fell out of the dynamics completely naturally.”)— Mason Kamb, Doutorando em Física Aplicada, Stanford University
Implicações e Próximos Passos
A descoberta sugere que a criatividade de modelos de difusão é intrinsecamente gerada pela arquitetura de processamento local e pela garantia de coerência espacial. Isso desafia a visão de que a criatividade seria um fenômeno superior ou emergente, atribuindo-a a imperfeições e limitações técnicas do processo de denoising. O estudo convida novas reflexões sobre semelhanças entre criatividade humana e artificial, aproximando ambas da ideia de recombinação de experiências e informações incompletas.
Especialistas apontam que, embora os resultados esclareçam mecanismos da criatividade em modelos de difusão, ainda restam perguntas sobre como outras IAs, incluindo grandes modelos de linguagem, manifestam criatividade sem recorrer à mesma arquitetura de localidade ou equivariância.
No horizonte, pesquisas devem analisar se outros sistemas e abordagens computacionais reproduzem tal padrão, além de explorar a aplicabilidade desse entendimento para tornar IAs mais controláveis e transparentes em seus processos criativos. Os pesquisadores veem potencial para impactar nossas definições de criatividade não apenas em máquinas, mas também no entendimento do funcionamento cognitivo humano.
Fonte: (Live Science – Ciência)