
Pesquisa Avança em Reconhecimento de Fala para Crianças com Inteligência Artificial
Machine learning e inteligência artificial estão revolucionando o campo do reconhecimento de fala, especialmente em aplicações voltadas para crianças. Pesquisadores da Universidade do Texas em Dallas utilizam supercomputadores para criar modelos mais eficazes nesse domínio.
Contexto da pesquisa
No Texas Advanced Computing Center, o supercomputador Lonestar6 está apoiando cientistas da fala em sua busca por avanços no reconhecimento automático de fala (ASR) para crianças. Estudantes e pesquisadores estão explorando como abstrações matemáticas chamadas ‘unidades de fala discretas’ podem ajudar a identificar problemas de linguagem e promover intervenções mais rápidas.
Método proposto
O modelo de reconhecimento de fala usado pelos pesquisadores envolve a utilização de unidades de fala discretas, que oferecem uma forma de representação abstrata da fala. Esse método permite que a fala original seja irrecuperável, garantindo privacidade aos dados das crianças. De acordo com Satwik Dutta, “Assim que a fala é carregada, você pode convertê-la em unidades de fala discretas, então você não tem preocupações sobre violar a privacidade porque a fala se foi” (“As soon as the speech is loaded you can convert it into discrete speech units, then you don’t have any concerns of violating privacy because the speech is gone.”)
A abordagem baseada em unidades discretas resultou em um modelo com 40 milhões de parâmetros, oferecendo desempenho equivalente ao de um modelo ASR tradicional com quase 429 milhões de parâmetros, utilizando recursos computacionais do Lonestar6. Esses resultados comprovam a eficácia do método, enquanto minimizam a complexidade e os requisitos computacionais para treinamento.
Resultados e impacto
Os pesquisadores, apoiados por um projeto financiado pela National Science Foundation, colaboraram com várias instituições, utilizando dados coletados de mais de mil crianças durante tutoriais virtuais e gravações em ambientes reais de cuidado infantil. O uso do supercomputador TACC foi crucial para o processamento avançado e armazenamento seguro dos dados.
“Dados baseados em voz são computacionalmente caros, e eu precisava comparar meus resultados com sistemas modernos de ponta. Sem o TACC, isso não teria sido possível.” (“Voice based data is computationally expensive, and I needed to compare my results with modern state-of-the-art systems. Without TACC that would not have been possible.”)
— Satwik Dutta, Doutorando, Universidade do Texas em Dallas
O trabalho mais recente, aceito em uma conferência sobre interação criança-computador, explora a utilização de um modelo ASR chamado Whisper, visando rodá-lo em dispositivos móveis como o Raspberry Pi 5, aumentando a privacidade ao descartar dados de voz bruta após o processamento.
A pesquisa tem potenciais aplicações em educação e assistências clínicas, criando um futuro digital mais seguro para as crianças. Os próximos passos incluem melhorias contínuas nos modelos de reconhecimento de fala e na integração de protocolos de privacidade.
Fonte: (TechXplore – Machine Learning & AI)