Modelos de AI intensificam características de baixa frequência

AI inova a geração criativa de imagens por meio de amplificação de características de baixa frequência
Machine learning tem se mostrado uma ferramenta poderosa em diversas áreas, e a geração de imagens através de descrições em linguagem natural é uma de suas aplicações em destaque. Pesquisadores da KAIST desenvolveram uma tecnologia que amplia a criatividade dos modelos de geração de imagens, como o Stable Diffusion, sem necessidade de treinamento adicional.
Contexto da pesquisa
A recente pesquisa liderada pelo professor Jaesik Choi, da KAIST Kim Jaechul Graduate School of AI, conta com a colaboração do NAVER AI Lab. Embora modelos populares, como o Stable Diffusion, consigam gerar imagens de alta qualidade, sua capacidade criativa é, muitas vezes, limitada. A equipe buscou superar essa limitação por meio de manipulações em mapas de características internas dos modelos de geração de imagens.
Método proposto
O método desenvolvido consiste em amplificar a região de baixa frequência dos blocos rasos dentro do modelo. Para isso, os pesquisadores converteram o mapa de características internas de um modelo generativo pré-treinado para o domínio de frequência utilizando a Transformada Rápida de Fourier. Após amplificar a região de baixa frequência, a transformação é revertida para gerar as imagens. A equipe implementou um algoritmo que seleciona automaticamente o valor de amplificação ideal para cada bloco dentro do modelo.
Resultados e impacto
Os resultados demonstraram um aumento na diversidade das imagens geradas, mitigando o problema de colapso de modo no modelo SDXL-Turbo. As avaliações quantitativas confirmaram que as imagens geradas pela nova abordagem são mais inovadoras em comparação com as da metodologia tradicional, mantendo utilidade. De acordo com Jiyeon Han, uma das coautoras da pesquisa:
“Esta é a primeira metodologia para aprimorar a geração criativa de modelos generativos sem novo treinamento ou ajuste fino.”
(“This is the first methodology to enhance the creative generation of generative models without new training or fine-tuning.”)— Jiyeon Han, Candidata a Ph.D., KAIST
Esses avanços têm o potencial de inspirar diversas áreas, incluindo design de produtos e outras aplicações no ecossistema criativo. A técnica, que não requer novos dados de classificação, destaca como a manipulação de mapas de características pode extrair a criatividade latente de modelos de IA já treinados.
Fonte: (TechXplore – Machine Learning & AI)