
Contexto da pesquisa
A pesquisa recente da Universidade de Abertay, liderada pelo Dr. Neil Kirk, destaca como as tecnologias de voz geradas por IA, impulsionadas por machine learning, têm se tornado cada vez mais realistas. A preocupação gira em torno do uso dessas vozes para fraudes ao imitar sotaques regionais, tornando possíveis os golpes direcionados a vítimas desprevenidas.
Método proposto
O estudo utilizou gravações de seis frases comuns nas variantes do inglês escocês e no dialeto Dundonian. As frases, como “The dog had five puppies” e “The doag had fev puppies”, foram processadas utilizando software de IA. Os áudio gerados foram testados em 200 participantes da Escócia e 100 da Inglaterra do Sul, a fim de avaliar a acurácia na identificação de vozes humanas reais e geradas por IA.
Resultados e impacto
Os resultados mostram que os participantes escoceses identificaram vozes genuínas com uma taxa média de apenas 57%, enquanto os da Inglaterra do Sul tiveram um desempenho de 52%. Embora os escoceses tenham superioridade na identificação, muitas vozes geradas ainda conseguiram enganá-los. Dr. Kirk observa que “as vozes de IA estão tão avançadas que está ficando cada vez mais difícil para a maioria das pessoas distinguir entre elas e a fala humana real” (“As AI voices become more advanced, it’s getting harder and harder for most people to tell them apart from real human speech.”)
— Dr. Neil Kirk, Pesquisador, Universidade de Abertay
O estudo ressalta a necessidade de aumentar a conscientização pública sobre como as vozes geradas por IA podem soar realisticamente convincentes, especialmente ao imitarem sotaques regionais. Dr. Kirk sugere que campanhas de conscientização poderiam ajudar a mitigar os riscos associados a golpes de fraude.
As descobertas podem levar à aplicação de novas medidas de segurança em serviços como bancos online, visando reduzir as chances de pessoas caírem em fraudes. Futuros estudos poderão explorar a aplicação de diferentes modelos de machine learning, como redes neurais recorrentes (RNN) ou generative adversarial networks (GAN), para melhorar ainda mais a percepção e a detecção de vozes geradas por IA.
Fonte: (TechXplore – Machine Learning & AI)