- Publicidade -
- Publicidade -
- Publicidade -
Machine learning & AI

Modelos de AI falham em replicar expressividade da fala humana

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

Pesquisadores da Universidade da Pensilvânia investigaram as limitações de modelos de machine learning em replicar a expressividade da fala humana, destacando o papel crucial da entonação na comunicação verbal e as lacunas presentes na tecnologia atual.

Contexto da pesquisa

A pesquisa liderada pela professora de linguística, Jianjing Kuang, envolve três estudantes que participam do Programa de Mentoria em Pesquisa de Graduação da Penn. O foco é a comparação entre a produção de fala humana e a gerada por modelos de AI, especialmente em plataformas de texto-para-fala (TTS).

Método proposto

Os estudantes utilizaram 15 plataformas TTS de diferentes empresas, incluindo OpenAI e Google. A metodologia incluía a geração da frase “Molly mailed a melon” em diferentes contextos e a gravação de voluntários humanos. A análise acústica foi realizada usando o software Praat para medir aspectos como pitch, intensidade e duração das palavras.

“O objetivo é construir pontes entre ciência e indústria. Acredito que precisamos de nosso conhecimento para avaliar o quão bom é o modelo e nos ajudar a nos aproximar de uma fala AI verdadeiramente natural e expressiva”
(“The goal is to build bridges between science and industry. I do think they need us—our knowledge—to tell how good the model is and help move us closer to truly natural and expressive AI speech.”)

— Jianjing Kuang, Professora, Universidade da Pensilvânia

Resultados e impacto

Os resultados mostraram uma variabilidade significativa entre os modelos testados. Embora alguns, como OpenAI e Google Gemini, apresentassem um desempenho relativamente melhor, a maioria dos modelos falhou em enfatizar corretamente as palavras-chave. Por exemplo, ao pedir ênfase na palavra “mailed”, os humanos demonstraram uma duração média significativamente maior em comparação com as máquinas.

Os testes de percepção indicaram que a capacidade de identificar a fala humana em comparação à gerada por AI era alta, sugerindo que a tecnologia ainda tem um longo caminho a percorrer para se aproximar da naturalidade humana.

Essas descobertas têm importantes implicações, não apenas para o desenvolvimento de tecnologias de AI mais sofisticadas, mas também para a compreensão das nuances da fala humana e aplicações em tratamentos de distúrbios de fala.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!