
São Paulo — InkDesign News —
A tecnologia de machine learning avançou significativamente na correção de problemas de sincronização de áudio e vídeo, oferecendo soluções automatizadas que economizam tempo na produção de conteúdo multimídia.
Arquitetura de modelo
O modelo apresentado no artigo “Syncnet” utiliza uma arquitetura de rede neural convolucional (CNN) de dois fluxos: um para o áudio e outro para o vídeo. Ambos os ramos consomem 0,2 segundos de entrada, permitindo a comparação entre amostras de áudio e vídeo. O pré-processamento dos dados é essencial, sendo o áudio representado por uma matriz MFCC de 13 x 20, enquanto o vídeo é transformado em imagens em escala de cinza 111 x 111.
“A rede aprende um espaço de incorporação conjunto, onde os embeddings de áudio e vídeo sincronizados se agrupam próximos entre si.”
(“The network learns a joint embedding space, where synced audio and video embeddings cluster close to each other.”)— Pesquisador do Syncnet
Treinamento e otimização
O método de treinamento auto-supervisionado permite a utilização de grandes quantidades de dados sem necessidade de anotações manuais, proporcionando pares positivos e negativos ao gerar exemplos de áudio e vídeo em sincronia e fora de sincronia. A perda contrastiva é utilizada para otimizar o modelo e refinar a precisão dos dados. Isso é alcançado ao minimizar a distância euclidiana entre embeddings sincronizados e maximizar essa distância entre pares negativos.
“A beleza está em sua simplicidade: treinar duas CNNs para criar embeddings onde pares de áudio e vídeo sincronizados se agrupam naturalmente.”
(“The beauty lies in its simplicity: train two CNNs to create embeddings where synced audio-video pairs naturally cluster together.”)— Pesquisador do Syncnet
Resultados e métricas
Os resultados mostram que o modelo alcança até 99% de precisão ao calcular offsets de sincronização usando a média de várias amostras. A confiabilidade do modelo é acentuada pela capacidade de lidar com diferentes cenários, desde transmissões de TV até vídeos de plataformas como o YouTube.
“A média, se realizada corretamente, elimina amostras enganosas, levando a resultados mais estáveis.”
(“The averaging, if done correctly, eliminates misleading samples, leading to more stable results.”)— Pesquisador do Syncnet
As aplicações práticas do Syncnet são vastas, incluindo correção de problemas de sincronização em pós-produção e identificação de oradores em cenas com múltiplas pessoas. O próximo passo envolve aprimorar a precisão do modelo em contextos mais variados.
Fonte: (Towards Data Science – AI, ML & Deep Learning)