Lightricks acelera geração de vídeo por AI em 30x sem GPU 10.000 dólares

São Paulo — InkDesign News — Lightricks, empresa conhecida por seus aplicativos criativos como Facetune e VideoLeap, lançou o modelo de geração de vídeo por inteligência artificial LTX Video 13 bilhões de parâmetros (LTXV-13B). O modelo utiliza deep learning para gerar vídeos de alta qualidade até 30 vezes mais rápido que modelos concorrentes, rodando em hardwares de consumo, como GPUs gamer, sem necessidade de equipamentos corporativos caros.
Tecnologia e abordagem
O LTXV-13B destaca-se pela inovadora técnica de “renderização multiescalar” (multiscale rendering), que aumenta a eficiência ao gerar vídeos em camadas progressivas de detalhe. O processo começa com uma aproximação grosseira da cena, que é refinada em blocos (tiles) com detalhes adicionais, reduzindo a demanda máxima de memória VRAM. O modelo opera em um espaço latente comprimido para menor uso de memória e mantém a qualidade visual. Essa abordagem permite rodar o modelo em GPUs com até 32 GB de VRAM, incluindo Nvidia 3090, 4090 e 5090.
“A grande inovação técnica deste lançamento é a abordagem de renderização multiescalar, que permite a geração gradual dos detalhes no vídeo.”
(“The biggest technical breakthrough of this release is the multiscale rendering approach, which allows the model to generate details gradually.”)— Zeev Farbman, CEO, Lightricks
Aplicação e desempenho
O LTXV-13B executa em estações convencionais com GPUs de consumidor, evitando a necessidade de modelos em nuvem que demandam múltiplas GPUs corporativas com 80 GB ou mais de VRAM. Em benchmarks, o LTXV-13B gerou um vídeo em 37,59 segundos, enquanto modelos concorrentes levaram mais de 1.491 segundos em hardware equivalente, representando uma melhoria de quase 40 vezes na velocidade.
“O limite máximo de VRAM depende do tamanho do bloco, e não da resolução final, o que é fundamental para a viabilidade em hardware padrão.”
(“Your peak amount of VRAM is limited by a tile size, not the final resolution, which is critical for running on consumer hardware.”)— Zeev Farbman, CEO, Lightricks
Impacto e mercado
Além do avanço técnico, Lightricks adotou uma estratégia aberta ao disponibilizar o modelo como open source no Hugging Face e GitHub, fomentando pesquisa acadêmica e colaboração. A empresa firmou parcerias com Getty Images e Shutterstock para obter conteúdo licenciado para treinamento, enfrentando desafios legais no uso de dados coletados na internet. Startups com receita anual inferior a US$ 10 milhões podem licenciar o modelo gratuitamente, enquanto grandes empresas precisam negociar licenças conforme o crescimento.
“Estamos criando situações vantajosas para startups enquanto oferecemos um modelo confiável para uso empresarial.”
(“We want to create win-win situations for startups while providing a clean model for enterprise use.”)— Zeev Farbman, CEO, Lightricks
Embora a geração de vídeo por IA ainda esteja distante do nível de produções cinematográficas de Hollywood, o LTXV-13B tem aplicação prática em animação, reduzindo custos e tempo urgente na produção de quadros-chave. Futuramente, a empresa aposta em modelos multimodais que integrem áudio, vídeo e música para melhorar a sincronização labial e outras funcionalidades.
Fonte: (VentureBeat – AI)