Modelos de AI falham em replicar expressividade da fala humana

São Paulo — InkDesign News —
Pesquisadores da Universidade da Pensilvânia investigaram as limitações de modelos de machine learning em replicar a expressividade da fala humana, destacando o papel crucial da entonação na comunicação verbal e as lacunas presentes na tecnologia atual.
Contexto da pesquisa
A pesquisa liderada pela professora de linguística, Jianjing Kuang, envolve três estudantes que participam do Programa de Mentoria em Pesquisa de Graduação da Penn. O foco é a comparação entre a produção de fala humana e a gerada por modelos de AI, especialmente em plataformas de texto-para-fala (TTS).
Método proposto
Os estudantes utilizaram 15 plataformas TTS de diferentes empresas, incluindo OpenAI e Google. A metodologia incluía a geração da frase “Molly mailed a melon” em diferentes contextos e a gravação de voluntários humanos. A análise acústica foi realizada usando o software Praat para medir aspectos como pitch, intensidade e duração das palavras.
“O objetivo é construir pontes entre ciência e indústria. Acredito que precisamos de nosso conhecimento para avaliar o quão bom é o modelo e nos ajudar a nos aproximar de uma fala AI verdadeiramente natural e expressiva”
(“The goal is to build bridges between science and industry. I do think they need us—our knowledge—to tell how good the model is and help move us closer to truly natural and expressive AI speech.”)
— Jianjing Kuang, Professora, Universidade da Pensilvânia
Resultados e impacto
Os resultados mostraram uma variabilidade significativa entre os modelos testados. Embora alguns, como OpenAI e Google Gemini, apresentassem um desempenho relativamente melhor, a maioria dos modelos falhou em enfatizar corretamente as palavras-chave. Por exemplo, ao pedir ênfase na palavra “mailed”, os humanos demonstraram uma duração média significativamente maior em comparação com as máquinas.
Os testes de percepção indicaram que a capacidade de identificar a fala humana em comparação à gerada por AI era alta, sugerindo que a tecnologia ainda tem um longo caminho a percorrer para se aproximar da naturalidade humana.
Essas descobertas têm importantes implicações, não apenas para o desenvolvimento de tecnologias de AI mais sofisticadas, mas também para a compreensão das nuances da fala humana e aplicações em tratamentos de distúrbios de fala.
Fonte: (TechXplore – Machine Learning & AI)