Novo sistema AI traduz vozes múltiplas em fones com machine learning

Seattle — InkDesign News — Pesquisadores desenvolveram um sistema de inteligência artificial capaz de traduzir falas em francês, alemão e espanhol para o inglês em tempo real, enquanto preserva a direção e a característica vocal dos interlocutores, ampliando a experiência de tradução espacial em dispositivos portáteis.
Contexto da pesquisa
O avanço em tradução automática tem sido constantemente impulsionado por modelos de machine learning que buscam superar barreiras linguísticas. No entanto, a junção de identificação espacial do falante com tradução simultânea ainda representa um grande desafio. A pesquisa realizada por uma equipe liderada pelo professor Shyam Gollakota, da Universidade de Washington, em Seattle, propõe um sistema que utiliza dados amplamente disponíveis para treinar duas redes neurais: uma para mapear a posição dos interlocutores que falam ao redor do usuário, e outra para traduzir e sintetizar suas vozes em inglês preservando o tom original. Trabalhos anteriores focaram em traduções ou no reconhecimento de voz, mas a integração desses elementos em tempo real, com baixa latência, é recente e relevante para aplicações de realidade aumentada e dispositivos wearables.
Método e resultados
O sistema Spatial Speech Translation se estrutura em dois modelos de IA. O primeiro divide o espaço em regiões ao redor dos fones de ouvido e utiliza uma rede neural para identificar potenciais falantes e sua direção. O segundo modelo realiza tradução do francês, alemão ou espanhol para o inglês, usando conjuntos de dados públicos, ao mesmo tempo em que extrai características únicas das vozes (como pitch e amplitude) para “clonar” o timbre vocal, oferecendo uma experiência auditiva próxima ao som original.
Segundo Samuele Cornell, pesquisador do Language Technologies Institute da Carnegie Mellon University, “Real-time speech-to-speech translation is incredibly hard” (“Tradução de fala para fala em tempo real é incrivelmente difícil”). Ele ressalta também que “Their results are very good in the limited testing settings. But for a real product, one would need much more training data—possibly with noise and real-world recordings from the headset, rather than purely relying on synthetic data.”
“Os resultados são muito bons em cenários limitados de teste. Mas para um produto real, seria necessário bem mais dados de treinamento—possivelmente com ruído e gravações do mundo real feitas pelo próprio fone, ao invés de depender puramente de dados sintéticos.”
(“Their results are very good in the limited testing settings. But for a real product, one would need much more training data—possibly with noise and real-world recordings from the headset, rather than purely relying on synthetic data.”)— Samuele Cornell, Pesquisador Pós-Doutor, Language Technologies Institute, Carnegie Mellon University
O sistema apresenta variações de velocidade na tradução: é mais rápido do francês para o inglês, seguido do espanhol, e mais lento do alemão, devido à estrutura sintática das línguas, como detalhou o pesquisador Claudio Fantinuoli, da Johannes Gutenberg University Mainz:
“The longer you wait [before translating], the more context you have, and the better the translation will be. It’s a balancing act.”
(“Quanto mais você espera [antes de traduzir], mais contexto você tem, e melhor será a tradução. É um ato de equilíbrio.”)— Claudio Fantinuoli, Pesquisador, Johannes Gutenberg University Mainz
Implicações e próximos passos
A equipe liderada por Gollakota trabalha para reduzir a latência da tradução para menos de um segundo, buscando que as conversas multilíngues mantenham fluidez e naturalidade. Contudo, isso apresenta uma difícil equação entre rapidez e precisão, pois a espera por mais contexto melhora a qualidade da tradução. Adicionalmente, a robustez do sistema em cenários ruidosos e ambientes reais ainda requer validação extensiva e coleta de dados aprimorada.
Esse avanço abre caminho para aplicações práticas em dispositivos como fones de ouvido inteligentes e assistentes pessoais, facilitando a comunicação sem barreiras linguísticas enquanto mantém a percepção espacial dos interlocutores. As perspectivas futuras incluem expansão para mais idiomas e integração com plataformas de realidade aumentada, preservando sempre o equilíbrio entre desempenho e experiência do usuário.
Em suma, a tecnologia representará um marco nas interfaces de comunicação multilíngue em tempo real, aproximando-se da complexidade do diálogo humano dentro de ambientes naturais.
Fonte: (MIT Technology Review – Artificial Intelligence)