
Londres — InkDesign News — Uma nova pesquisa, publicada em 24 de setembro na revista PLoS One, revela que ouvintes médios já não conseguem distinguir de forma precisa entre vozes humanas reais e vozes geradas por inteligência artificial, especialmente quando se trata de clones vocais (deepfakes) baseados em gravações reais de pessoas.
O Contexto da Pesquisa
O avanço das tecnologias de inteligência artificial tornou comum a presença de assistentes de voz como Siri e Alexa, cujos padrões robóticos de pronúncia sempre permitiram fácil identificação como não humanos. No entanto, cientistas do Queen Mary University of London destacam que essa barreira foi superada graças ao desenvolvimento de vozes sintéticas altamente naturalistas. O estudo responde a uma pergunta central da área: até que ponto as vozes artificiais tornaram-se indistinguíveis das vozes humanas reais?
Resultados e Metodologia
Os pesquisadores aplicaram uma metodologia comparativa: apresentaram a participantes amostras de 80 vozes — 40 geradas artificialmente e 40 humanas reais. Para as vozes criadas do zero por IA, apenas 41% foram equivocadamente classificadas como humanas, mostrando que, nesse caso, ainda há alguma distinção perceptível. Contudo, entre as vozes clonadas com base em pessoas reais, a taxa de erro subiu: 58% dessas foram confundidas com vozes humanas autênticas. O índice de acerto para vozes humanas reais foi apenas levemente superior, com 62%.
“Vozes geradas por IA estão em toda parte agora. Todos nós já falamos com Alexa ou Siri, ou tivemos chamadas atendidas por sistemas automatizados de atendimento ao cliente. Essas vozes ainda não soam exatamente como humanas, mas era só uma questão de tempo até a tecnologia de IA começar a produzir fala naturalista, semelhante à humana.”
(“AI-generated voices are all around us now. We’ve all spoken to Alexa or Siri, or had our calls taken by automated customer service systems. Those things don’t quite sound like real human voices, but it was only a matter of time until AI technology began to produce naturalistic, human-sounding speech.”)— Nadine Lavan, professora sênior de psicologia, Queen Mary University of London
O estudo observa ainda que, para criar tais clones vocais, bastaram softwares comerciais e menos de quatro minutos de gravações, exigindo baixo investimento técnico e financeiro. Casos recentes ilustram os riscos, como um golpe nos Estados Unidos em julho, onde criminosos usaram voz clonada para extorquir US$ 15 mil, e uma fraude envolvendo a voz do primeiro-ministro de Queensland em campanhas ilegítimas de investimentos.
Implicações e Próximos Passos
O avanço da clonagem de voz alimenta preocupações éticas, de segurança e de direitos autorais, já que facilita fraudes, manipulação de identidade e desinformação, como aponta Lavan:
“O processo exigiu experiência mínima, apenas alguns minutos de gravações de voz e quase nenhum dinheiro.”
(“The process required minimal expertise, only a few minutes of voice recordings, and almost no money.”)— Nadine Lavan, professora sênior, Queen Mary University of London
Ainda assim, os autores reconhecem aplicações positivas, como na acessibilidade, educação e aprimoramento da comunicação, citando o potencial das vozes sintéticas personalizadas para melhorar a experiência de usuários.
O estudo sugere a urgência de novas políticas e tecnologias de autenticação capazes de diferenciar vozes humanas de deepfakes. A expectativa é que, paralelamente ao avanço dos sistemas de IA, cresça a necessidade de estratégias para mitigar a proliferação de fraudes e garantir a integridade da informação no ambiente digital.
Fonte: (Live Science – Ciência)