- Publicidade -
- Publicidade -
Machine learning & AI

Deep learning habilita fones com tradução em grupo e áudio 3D

- Publicidade -
- Publicidade -

Uma nova pesquisa da Universidade de Washington introduz um sistema que utiliza machine learning para traduzir a fala de múltiplos falantes simultaneamente, mantendo a qualidade e a direção das vozes. Essa inovação busca resolver um desafio prevalente em espaços públicos.

Contexto da pesquisa

Recentemente, a universidade apresentou um projeto chamado “Spatial Speech Translation”, em que os pesquisadores desenvolveram um sistema de tradução em tempo real adaptado para ambientes dinâmicos e barulhentos. Esses sistemas geralmente falham ao traduzir quando mais de uma pessoa está falando, uma limitação que a nova tecnologia busca superar.

Método proposto

O modelo é fundamentado em algoritmos que funcionam como um radar, permitindo uma análise em 360 graus do ambiente para identificar e rastrear vários falantes. O sistema utiliza fones de ouvido com cancelamento de ruído, equipados com microfones, que separa a fala de diferentes interlocutores em tempo real. O funcionamento é totalmente local, utilizando dispositivos como laptops com chip Apple M2, evitando preocupações de privacidade associadas à computação em nuvem.

Resultados e impacto

Os testes realizados em dez ambientes, tanto internos quanto externos, demonstraram que os usuários preferiram o novo sistema em relação aos modelos tradicionais que não seguiam o movimento dos falantes. Em um teste com 29 participantes, a maioria preferiu um atraso de 3 a 4 segundos na tradução, indicando que essa configuração levou a menos erros de interpretação.

A tecnologia representa um passo em direção à superação de barreiras linguísticas entre culturas.
(“This is a step toward breaking down the language barriers between cultures.”)

— Tuochao Chen, Estudante de Doutorado, Universidade de Washington

Esse sistema tem a capacidade de traduzir em torno de 100 idiomas, embora atualmente se concentre em línguas comuns como espanhol, alemão e francês. Os pesquisadores planejam melhorar a velocidade e a acurácia da tradução em futuras iterações.

As aplicações potenciais incluem turismo, conferências multilíngues e qualquer situação em que a comunicação entre falantes de diferentes línguas seja necessária. Com a continuidade das pesquisas, espera-se que essa tecnologia se torne cada vez mais acessível e eficaz.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!