Nvidia lança modelo open source de AI para transcrição Parakeet-TDT-0.6B-V2

- Publicidade -

Tiago F Santiago 05/05/2025Última Atualização 05/05/2025

0 56 2 minutos de leitura

Nvidia lança modelo open source de AI para transcrição Parakeet-TDT-0.6B-V2 — Nvidia launches fully open source transcription AI model Parakeet-TDT-0.6B-V2 on Hugging Face

- Publicidade -

São Paulo — InkDesign News —

A Nvidia lançou um novo modelo de inteligência artificial para reconhecimento automático de voz (ASR) chamado Parakeet-TDT-0.6B-v2, que pode transcrever 60 minutos de áudio em apenas um segundo, aproveitando o poder de suas GPUs. O modelo, direcionado a desenvolvedores e pesquisadores, combina deep learning avançado com arquiteturas de codificador e decodificador modernas para elevar a precisão e eficiência das transcrições em inglês.

Tecnologia e abordagem

O Parakeet-TDT-0.6B-v2 é um modelo aberto com 600 milhões de parâmetros, que utiliza a combinação da arquitetura FastConformer como codificador e TDT como decodificador. Ele foi treinado no dataset Granary, um conjunto extenso com cerca de 120 mil horas de áudio em inglês, incluindo dados transcritos por humanos e pseudo-rotulados.

O modelo atinge um Real-Time Factor (RTFx) de 3386,02 para lotes de batch size 128, o que significa que ele é capaz de processar áudio muito mais rápido do que o tempo real. Isso se traduz em uma transcrição extremamente eficiente, desde que executado em hardware acelerado por GPU da Nvidia (exemplo: A100, H100). Mesmo com 2GB de RAM, ele pode ser carregado, o que amplia sua aplicabilidade.

Aplicação e desempenho

Com uma taxa média de erro de palavra (Word Error Rate – WER) de apenas 6,05%, o Parakeet chega perto da precisão de modelos proprietários como o GPT-4o-transcribe, da OpenAI, que possui WER de 2,46%, e o ElevenLabs Scribe, com WER de 3,3%. Ele suporta funções essenciais para transcrição completa como pontuação, capitalização e marcação de tempo detalhada para cada palavra.

“transcrever 60 minutos de áudio em 1 segundo [mind blown emoji]”
(“transcribe 60 minutes of audio in 1 second [mind blown emoji]”)

— Vaibhav “VB” Srivastav, Hugging Face

O modelo tem desempenho robusto em diferentes ambientes, incluindo áudios com ruído e formatos de telefonia, demonstrando eficácia em benchmarks como AMI, Earnings22, GigaSpeech e SPGISpeech.

Impacto e mercado

Sob licença Creative Commons CC-BY-4.0, o Parakeet-TDT-0.6B-v2 está disponível para uso comercial e modificações, o que o torna uma solução atraente para empresas que desejam integrar serviços de transcrição em suas aplicações ou desenvolver assistentes de voz e legendas automáticas, por exemplo.

“Libera todo esse pacote de transcrição para uma vasta gama de necessidades de fala para texto.”
(“offering a full transcription package for a wide range of speech-to-text needs.”)

— Nvidia, documento oficial

O lançamento representa uma estratégia da Nvidia para ampliar sua presença em deep learning com modelos proprietários e abertos, facilitando o ecossistema de inteligência artificial e consolidando sua posição no mercado competitivo de IA generativa.

O próximo passo da Nvidia será disponibilizar publicamente o dataset Granary, ampliando possibilidades de pesquisa e refinamento em reconhecimento de voz.

Fonte: (VentureBeat – AI)

- Publicidade -

Etiquetas

Tiago F Santiago 05/05/2025Última Atualização 05/05/2025

0 56 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Nvidia lança modelo open source de AI para transcrição Parakeet-TDT-0.6B-V2

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Tiago F Santiago

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

ANP aponta crescimento da produção no mercado de petróleo em março

Governo Lula nomeia Márcia Lopes ministra das Mulheres

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado