Modelo híbrido de AI gera vídeos de alta qualidade em segundos

São Paulo — InkDesign News — Pesquisadores do MIT CSAIL e Adobe Research desenvolveram o CausVid, um modelo híbrido de machine learning que gera vídeos de alta qualidade em segundos, combinando eficiência e fidelidade visual em AI para vídeo.
Contexto da pesquisa
Modelos de difusão para geração de vídeo, como OpenAI SORA e Google VEO 2, tradicionalmente processam toda a sequência de uma vez, resultando em vídeos fotorrealistas, porém lentos e inflexíveis para alterações em tempo real. Para superar essas limitações, cientistas do MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) e Adobe Research criaram uma abordagem híbrida que alia um modelo de difusão com um sistema autoregressivo, acelerando significativamente o processo de criação.
Método proposto
O CausVid utiliza um modelo de difusão pré-treinado como “professor” para ensinar um sistema autoregressivo, típico em modelos de geração de texto, a prever rapidamente os próximos frames do vídeo. Esse método reduz os passos tradicionais de 50 para poucos, promovendo consistência e qualidade, com interatividade para adição de elementos durante a geração. O sistema autoregressivo é menos diverso visualmente, porém mantém a qualidade do professor com rapidez superior.
“CausVid combina um modelo baseado em difusão pré-treinado com uma arquitetura autoregressiva encontrada tipicamente em modelos de geração de texto. (CausVid combines a pre-trained diffusion-based model with autoregressive architecture that’s typically found in text generation models.)”
— Tianwei Yin, Pesquisador, MIT CSAIL
Resultados e impacto
Nos testes, o CausVid produziu vídeos de alta resolução de até 10 segundos e 30 segundos, mostrando estabilidade e qualidade superiores a modelos concorrentes como OpenSORA e MovieGen, com até 100 vezes mais rapidez. Em um conjunto de mais de 900 prompts, alcançou a nota geral 84,27, destacando-se em qualidade de imagem e realismo em ações humanas, superando outras abordagens modernas. A metodologia pode viabilizar vídeos estáveis de durações muito maiores no futuro.
“A velocidade do modelo autoregressivo faz diferença. Seus vídeos são tão bons quanto os do professor, porém com menos tempo para produzir, a troca é que as imagens são menos diversas. (The speed of the autoregressive model really makes a difference. Its videos look just as good as the teacher’s ones, but with less time to produce, the trade-off is that its visuals are less diverse.)”
— Tianwei Yin, Pesquisador, MIT CSAIL
O modelo tem potencial para aplicações em tradução simultânea em vídeos ao vivo, geração de conteúdo para jogos e simulações robóticas. Continuidade na pesquisa prevê treinamentos específicos em domínios variados para aprimorar qualidade e velocidade de geração.
Fonte: (TechXplore – Machine Learning & AI)