- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

Nvidia lança modelo open source de AI para transcrição Parakeet-TDT-0.6B-V2

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

A Nvidia lançou um novo modelo de inteligência artificial para reconhecimento automático de voz (ASR) chamado Parakeet-TDT-0.6B-v2, que pode transcrever 60 minutos de áudio em apenas um segundo, aproveitando o poder de suas GPUs. O modelo, direcionado a desenvolvedores e pesquisadores, combina deep learning avançado com arquiteturas de codificador e decodificador modernas para elevar a precisão e eficiência das transcrições em inglês.

Tecnologia e abordagem

O Parakeet-TDT-0.6B-v2 é um modelo aberto com 600 milhões de parâmetros, que utiliza a combinação da arquitetura FastConformer como codificador e TDT como decodificador. Ele foi treinado no dataset Granary, um conjunto extenso com cerca de 120 mil horas de áudio em inglês, incluindo dados transcritos por humanos e pseudo-rotulados.

O modelo atinge um Real-Time Factor (RTFx) de 3386,02 para lotes de batch size 128, o que significa que ele é capaz de processar áudio muito mais rápido do que o tempo real. Isso se traduz em uma transcrição extremamente eficiente, desde que executado em hardware acelerado por GPU da Nvidia (exemplo: A100, H100). Mesmo com 2GB de RAM, ele pode ser carregado, o que amplia sua aplicabilidade.

Aplicação e desempenho

Com uma taxa média de erro de palavra (Word Error Rate – WER) de apenas 6,05%, o Parakeet chega perto da precisão de modelos proprietários como o GPT-4o-transcribe, da OpenAI, que possui WER de 2,46%, e o ElevenLabs Scribe, com WER de 3,3%. Ele suporta funções essenciais para transcrição completa como pontuação, capitalização e marcação de tempo detalhada para cada palavra.

“transcrever 60 minutos de áudio em 1 segundo [mind blown emoji]”
(“transcribe 60 minutes of audio in 1 second [mind blown emoji]”)

— Vaibhav “VB” Srivastav, Hugging Face

O modelo tem desempenho robusto em diferentes ambientes, incluindo áudios com ruído e formatos de telefonia, demonstrando eficácia em benchmarks como AMI, Earnings22, GigaSpeech e SPGISpeech.

Impacto e mercado

Sob licença Creative Commons CC-BY-4.0, o Parakeet-TDT-0.6B-v2 está disponível para uso comercial e modificações, o que o torna uma solução atraente para empresas que desejam integrar serviços de transcrição em suas aplicações ou desenvolver assistentes de voz e legendas automáticas, por exemplo.

“Libera todo esse pacote de transcrição para uma vasta gama de necessidades de fala para texto.”
(“offering a full transcription package for a wide range of speech-to-text needs.”)

— Nvidia, documento oficial

O lançamento representa uma estratégia da Nvidia para ampliar sua presença em deep learning com modelos proprietários e abertos, facilitando o ecossistema de inteligência artificial e consolidando sua posição no mercado competitivo de IA generativa.

O próximo passo da Nvidia será disponibilizar publicamente o dataset Granary, ampliando possibilidades de pesquisa e refinamento em reconhecimento de voz.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!