Difusão interrompe treino de rede neural para AI mais eficiente

São Paulo — InkDesign News —
Pesquisadores da Universidade de Ciência de Tóquio desenvolveram um novo modelo para aprimorar técnicas de machine learning, especificamente em inteligência artificial generativa, utilizando abordagens inovadoras em modelos de difusão.
Contexto da pesquisa
Os modelos de difusão são amplamente utilizados em AI gerações de imagens e áudio. Esses modelos operam adicionando ruído a dados reais e aprendendo a reverter esse processo, mas enfrentam desafios quando os dados se afastam do modelo prévio, resultando na lentidão do processo de geração de amostras.
Método proposto
A pesquisa liderada pelo estudante de doutorado Kentaro Kaba e pelo professor Masayuki Ohzeki reinterpretou os modelos de ponte de Schrödinger como autoencoders variacionais com variáveis latentes infinitas. Isso não apenas permite uma representação mais flexível das distribuições de probabilidade, mas também reduz o custo computacional e mitiga overfitting.
(“The key insight lies in extending the number of latent variables from one to infinity, leveraging the data-processing inequality. This perspective enables us to interpret SB-type models within the framework of VAEs.”)— Kentaro Kaba, Estudante de pós-graduação, Universidade de Ciência de Tóquio
Resultados e impacto
O novo modelo identifica dois objetivos de treinamento principais: a perda prévia, que garante que o encoder mapeie a distribuição correta, e a correspondência de deriva, que treina o decoder para simular a dinâmica do processo reverso. A equipe demonstrou que interromper o treinamento do encoder precocemente ajuda a evitar o overfitting, preservando a acurácia em modelos de ponte de Schrödinger.
“A função objetivo é composta pelas partes de perda prévia e correspondência de deriva, que caracterizam o treinamento das redes neurais no encoder e no decoder, respectivamente”
(“The objective function is composed of the prior loss and drift matching parts, which characterizes the training of neural networks in the encoder and the decoder, respectively.”)— Masayuki Ohzeki, Professor, Universidade de Ciência de Tóquio
Os modelos SB demonstram ser aplicáveis a outros conjuntos de regras probabilísticas, mesmo processos não-Markov. Essa abordagem promete avanços significativos na eficiência de modelos gerativos, abrindo caminho para futuras pesquisas e aplicações práticas.
Fonte: (TechXplore – Machine Learning & AI)