Nvidia lança modelo open source de AI para transcrição Parakeet-TDT-0.6B-V2

São Paulo — InkDesign News —
A Nvidia lançou um novo modelo de inteligência artificial para reconhecimento automático de voz (ASR) chamado Parakeet-TDT-0.6B-v2, que pode transcrever 60 minutos de áudio em apenas um segundo, aproveitando o poder de suas GPUs. O modelo, direcionado a desenvolvedores e pesquisadores, combina deep learning avançado com arquiteturas de codificador e decodificador modernas para elevar a precisão e eficiência das transcrições em inglês.
Tecnologia e abordagem
O Parakeet-TDT-0.6B-v2 é um modelo aberto com 600 milhões de parâmetros, que utiliza a combinação da arquitetura FastConformer como codificador e TDT como decodificador. Ele foi treinado no dataset Granary, um conjunto extenso com cerca de 120 mil horas de áudio em inglês, incluindo dados transcritos por humanos e pseudo-rotulados.
O modelo atinge um Real-Time Factor (RTFx) de 3386,02 para lotes de batch size 128, o que significa que ele é capaz de processar áudio muito mais rápido do que o tempo real. Isso se traduz em uma transcrição extremamente eficiente, desde que executado em hardware acelerado por GPU da Nvidia (exemplo: A100, H100). Mesmo com 2GB de RAM, ele pode ser carregado, o que amplia sua aplicabilidade.
Aplicação e desempenho
Com uma taxa média de erro de palavra (Word Error Rate – WER) de apenas 6,05%, o Parakeet chega perto da precisão de modelos proprietários como o GPT-4o-transcribe, da OpenAI, que possui WER de 2,46%, e o ElevenLabs Scribe, com WER de 3,3%. Ele suporta funções essenciais para transcrição completa como pontuação, capitalização e marcação de tempo detalhada para cada palavra.
“transcrever 60 minutos de áudio em 1 segundo [mind blown emoji]”
(“transcribe 60 minutes of audio in 1 second [mind blown emoji]”)— Vaibhav “VB” Srivastav, Hugging Face
O modelo tem desempenho robusto em diferentes ambientes, incluindo áudios com ruído e formatos de telefonia, demonstrando eficácia em benchmarks como AMI, Earnings22, GigaSpeech e SPGISpeech.
Impacto e mercado
Sob licença Creative Commons CC-BY-4.0, o Parakeet-TDT-0.6B-v2 está disponível para uso comercial e modificações, o que o torna uma solução atraente para empresas que desejam integrar serviços de transcrição em suas aplicações ou desenvolver assistentes de voz e legendas automáticas, por exemplo.
“Libera todo esse pacote de transcrição para uma vasta gama de necessidades de fala para texto.”
(“offering a full transcription package for a wide range of speech-to-text needs.”)— Nvidia, documento oficial
O lançamento representa uma estratégia da Nvidia para ampliar sua presença em deep learning com modelos proprietários e abertos, facilitando o ecossistema de inteligência artificial e consolidando sua posição no mercado competitivo de IA generativa.
O próximo passo da Nvidia será disponibilizar publicamente o dataset Granary, ampliando possibilidades de pesquisa e refinamento em reconhecimento de voz.
Fonte: (VentureBeat – AI)