- Publicidade -
- Publicidade -
- Publicidade -
Machine learning & AI

SpeechSSM expande uso de assistente de voz AI 24 horas

- Publicidade -
- Publicidade -

Contexto da pesquisa

A pesquisa em machine learning tem avançado significativamente, especialmente no campo dos modelos de linguagem falada (SLMs), que buscam superar as limitações dos modelos de texto. A necessidade de gerenciar a geração de conteúdo de longa duração é mais crucial do que nunca, especialmente para podcasts e assistentes de voz.

O candidato a doutorado Sejin Park, associado ao grupo de pesquisa do Professor Yong Man Ro na Korea Advanced Institute of Science and Technology (KAIST), desenvolveu o modelo “SpeechSSM” para permitir a geração de fala natural e constante sem limitações temporais.

Método proposto

SpeechSSM utiliza uma estrutura híbrida que combina camadas de atenção e camadas recorrentes. As camadas de atenção focam em informações recentes enquanto as camadas recorrentes garantem a continuidade narrativa. Isso possibilita a geração fluida de longas sequências de fala.

O modelo processa sequências de fala de forma não autoregressiva, utilizando o modelo de síntese de áudio SoundStorm, que gera várias partes simultaneamente. Para avaliações, foi criada uma nova base de dados, “LibriSpeech-Long”, capaz de gerar até 16 minutos de fala, ao contrário dos modelos tradicionais que avaliam conteúdos de cerca de 10 segundos.

Resultados e impacto

Os resultados mostraram que o SpeechSSM mantém a coerência semântica e a naturalidade ao longo do tempo. Novas métricas de avaliação foram introduzidas, como “SC-L”, que mensura a coerência do conteúdo ao longo do tempo, e “N-MOS-T”, que avalia a naturalidade da fala gerada.

A geração de fala com o SpeechSSM foi capaz de manter a consistência com personagens e eventos iniciais, ao contrário de modelos anteriores que frequentemente perdiam o foco.
(“The speech generated by the SpeechSSM spoken language model consistently featured specific individuals mentioned in the initial prompt, and new characters and events unfolded naturally and contextually consistently, despite long-duration generation.”)

— Sejin Park, Candidato a Doutorado, KAIST

Essa pesquisa tem o potencial de contribuir significativamente na criação de conteúdos de voz e na melhoria dos assistentes virtuais, tornando-os mais responsivos e eficientes. As próximas etapas incluem a aplicação do SpeechSSM em cenários reais para testes de desempenho e melhorias contínuas.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!