
São Paulo — InkDesign News —
A revolução da inteligência artificial (IA) tem ganhado força, especialmente com o desenvolvimento de modelos de linguagem de grande porte (LLMs) e técnicas de deep learning que visam soluções inovadoras. A startup Rime está na vanguarda dessa transformação, introduzindo o modelo Arcana, uma nova abordagem de texto-para-fala (TTS) que promete gerar vozes diversificadas e realistas a partir de descrições simples.
Tecnologia e abordagem
O modelo Arcana da Rime foi projetado para criar uma variedade infinita de vozes, permitindo que os usuários especifiquem características demográficas, como gênero e idade, através de um prompt de texto. A tecnologia é fundamentada em uma arquitetura multimodal e autoregressiva, influenciada por conversas naturais gravadas com pessoas, não com atores. Essa abordagem se distingue por capturar nuances da fala humana, fatores sociolinguísticos e variações de sotaque, resultando em uma produção de áudio que se aproxima da interação humana verdadeira.
“É uma coisa ter um modelo que soa como uma pessoa real, mas outra diferente é ter a capacidade de criar uma variabilidade infinita de vozes.”
(“It’s one thing to have a really high-quality, life-like, real person-sounding model; it’s another to have a model that can not just create one voice, but infinite variability of voices along demographic lines.”)— Lily Clifford, CEO, Rime
Aplicação e desempenho
O desempenho do Arcana tem se mostrado eficaz em números. Segundo a Rime, o modelo contribuiu para um aumento de 15% nas vendas para clientes como Domino’s e Wingstop. O modelo gera áudio em um tempo médio de 250 milissegundos, com latência de nuvem de cerca de 400 milissegundos. Além disso, o modelo é capaz de realizar mudanças de idioma, com variações de entonação, incluindo sarcasmo e murmúrios, tornando a interação mais dinâmica e menos robótica.
Impacto e mercado
O impacto da Rime está se manifestando em uma crescente adoção entre empresas, que relatam uma probabilidade quatro vezes maior de sucesso nas interações quando utilizam vozes criadas pelo Arcana. A startup já está suportando cerca de 100 milhões de chamadas mensais, refletindo sua crescente aceitação no mercado. Com clientes como Domino’s e Ylopo, Rime se destaca na indústria de atendimento ao cliente e análise de dados, provando a eficácia de sua abordagem única e inovadora.
Com a previsão de que 90% do volume operacional da Rime será on-premises até 2025, a empresa está se posicionando para entregar soluções de baixa latência. O desafio segue em frente, conforme a Rime busca aprimorar seu modelo para atender a necessidades linguísticas e contextuais específicas de seus clientes.
Fonte: (VentureBeat – AI)