- Publicidade -
- Publicidade -
- Publicidade -
Machine learning & AI

Rede neural conecta visão e som sem intervenção humana

- Publicidade -
- Publicidade -

Um novo modelo de machine learning desenvolvido por pesquisadores do MIT promete melhorar a capacidade da inteligência artificial (IA) em entender a conexão entre áudio e vídeo, aproximando-a da forma como os humanos aprendem.

Contexto da pesquisa

A pesquisa, liderada por Edson Araujo, aluno de pós-graduação na Universidade Goethe, visa aprimorar a aprendizagem de máquinas em cenários multimodais, onde áudio e dados visuais estão interligados. De acordo com Araujo, “estamos construindo sistemas de IA que conseguem processar o mundo como os humanos fazem, em termos de ter informações auditivas e visuais recebendo dados simultaneamente” (“We are building AI systems that can process the world like humans do, in terms of having both audio and visual information coming in at once”).

“Estamos construindo sistemas de IA que conseguem processar o mundo como os humanos fazem.”
(“We are building AI systems that can process the world like humans do.”)

— Edson Araujo, Aluno de Pós-Graduação, Universidade Goethe

Método proposto

O modelo, denominado CAV-MAE Sync, é uma evolução de um método anterior desenvolvido pelo mesmo grupo. Este modelo utiliza codificadores separados para processar quadros de vídeo e segmentos de áudio simultaneamente, permitindo uma correspondência mais precisa entre ambos. O modelo aprende a associar um quadro de vídeo específico ao áudio correspondente, oferecendo maior granularidade na relação entre os dados auditivos e visuais.

Durante o treinamento, cada janela de áudio é mapeada independentemente, permitindo que a IA reconheça, por exemplo, o som de uma porta batendo enquanto a porta se fecha visualmente. Além disso, a introdução de “tokens globais” e “tokens de registro” ajuda a aprimorar a capacidade de aprendizado do modelo.

Resultados e impacto

Os resultados mostraram uma precisão superior em tarefas de recuperação de vídeo e classificação de ações em cenas audiovisuais. A performance do CAV-MAE Sync foi superior à de métodos mais complexos e que exigem conjuntos de dados maiores. Os pesquisadores observaram que, em certas situações, “ideias simples ou padrões que você vê nos dados têm um grande valor quando aplicados a um modelo” (“Sometimes, very simple ideas or little patterns you see in the data have big value when applied on top of a model”).

“Ideias simples têm um grande valor quando aplicadas a um modelo.”
(“Sometimes, very simple ideas or little patterns you see in the data have big value when applied on top of a model.”)

— Edson Araujo, Aluno de Pós-Graduação, Universidade Goethe

As aplicações potenciais deste método incluem melhorias em ambientes robóticos e curadoria automática de conteúdo multimodal em áreas como jornalismo e produção de filmes. Os pesquisadores também almejam integrar novas representações de dados e expandir a funcionalidade do modelo para lidar com dados textuais, levando a um avanço em modelos de linguagem audiovisual.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!