
Contexto da pesquisa
Pesquisadores da Universidade de Nagoya, no Japão, estão desenvolvendo sistemas de diálogo entre humanos e inteligência artificial (AI) que imitam padrões de conversação japoneses de maneira mais natural. O foco da pesquisa é o modelo J-Moshi, o primeiro sistema de AI publicamente disponível voltado para as nuances do jeito japonês de se comunicar.
Método proposto
O modelo J-Moshi foi criado a partir da adaptação de um modelo anterior chamado Moshi, que era focado em interações em inglês. O desenvolvimento levou cerca de quatro meses e utilizou múltiplos conjuntos de dados de fala em japonês. A equipe que lidera a pesquisa utilizou o J-CHAT, o maior conjunto de dados de diálogo em japonês, que inclui aproximadamente 67.000 horas de áudio de podcasts e YouTube. Além disso, converteram conversas escritas em fala artificial utilizando programas de texto-para-fala que desenvolveram.
A principal dificuldade enfrentada pelos sistemas tradicionais de AI é a habilidade de falar e ouvir ao mesmo tempo, uma habilidade crítica para o diálogo natural em japonês. O J-Moshi foi projetado para utilizar “aizuchi”, respostas curtas que os falantes japoneses usam frequentemente para demonstrar que estão ouvindo, como “Sou desu ne” (isso mesmo) e “Naruhodo” (eu entendi).
Resultados e impacto
Os pesquisadores relataram que, em janeiro de 2024, vídeos de demonstração do J-Moshi se tornaram virais nas redes sociais, chamando a atenção não só pelo aspecto técnico, mas também por suas aplicações práticas no aprendizado de idiomas. O sistema ainda enfrentou desafios, como a necessidade de operadores humanos para intervir em situações complexas. “Nossa tecnologia pode ser aplicada ao funcionamento de sistemas que trabalham com operadores humanos”, disse o Professor Ryuichiro Higashinaka.
O Professor Higashinaka e sua equipe têm interesse em diversas aplicações comerciais, como call centers e serviços de saúde, embora enfrentem limitações devido à escassez de dados de fala em japonês. O trabalho em J-Moshi foi aceito para apresentação na Interspeech, uma das maiores conferências internacionais na área de tecnologia de fala, que ocorrerá em Roterdã em agosto de 2025.
As próximas etapas incluem o aprimoramento das interações humano-robô e a ampliação do sistema para aplicações em ambientes públicos, como aquários. As inovações esperadas podem transformar a maneira como as máquinas interagem em contextos sociais.
Machine Learning é um campo em rápida evolução que promete revolucionar a interação humano-máquina.
Fonte: (TechXplore – Machine Learning & AI)