OpenAI aposta em AI expressiva para conquistar o mercado empresarial

São Paulo — InkDesign News — A OpenAI avança na competição do mercado de inteligência artificial com seu novo modelo, gpt-realtime. Este modelo oferece vozes que seguem instruções complexas em um ambiente empresarial, destacando-se por sua naturalidade e expressividade, características relevantes para aplicações de atendimento ao cliente e tradução em tempo real.
Tecnologia e abordagem
O gpt-realtime opera dentro de um framework de speech-to-speech, permitindo que compreenda comandos verbais e responda com eficácia. Este modelo, alinhado a cenários do mundo real como suporte ao cliente e tutoria acadêmica, foi treinado em conjunto com desenvolvedores que utilizam tecnologias de voz. “Trabalhamos com nossos clientes que constroem aplicações de voz para treinar o gpt-realtime e ‘alinhamos cuidadosamente o modelo a avaliações baseadas em cenários reais’” (We worked with our customers who are building voice applications to train gpt-realtime and “carefully aligned the model to evals that are built on real-world scenarios”) — OpenAI.
Aplicação e desempenho
O desempenho do gpt-realtime foi avaliado usando o Big Bench Audio eval, onde obteve uma precisão de 82,8%, superando seu modelo anterior, que teve 65,6%. O modelo é projetado para interações em tempo real, onde um usuário interage com uma assistente de voz AI, como mostrado em demonstrações de clientes como T-Mobile e Zillow. O modelo também pode alternar entre idiomas, mantendo a fluidez das conversas.
Uma limitação notável do gpt-realtime é sua incapacidade de gerar vozes personalizadas, algo considerado essencial em experiências criativas. “Os usuários não podem criar vozes personalizadas, o que é um ponto negativo” (Users cannot create custom voices, which is a downside) — Gavin Purcell, Especialista em AI.
Impacto e mercado
Com o aumento da demanda por soluções de AI em voz, o gpt-realtime se inscreve em um mercado crescente, onde a OpenAI busca competir com empresas como ElevenLabs e Soundhound. Além disso, a OpenAI reduziu os preços em 20%, estabelecendo novos valores de $32 por milhão de tokens de entrada de áudio e $64 por saída.
No que diz respeito a futuras integrações, o gpt-realtime foi aprimorado com novos recursos na API em tempo real, permitindo o suporte a protocolos como SIP (Session Initiation Protocol), que conecta aplicações a redes de telefonia, expandindo assim os casos de uso em centros de atendimento.
As inovações em gpt-realtime e sua crescente aplicabilidade em cenários empresariais indicam um desenvolvimento continuo na inteligência artificial sob vozes realistas e expressivas, preparando o terreno para avanços estratégicos no setor.
Fonte: (VentureBeat – AI)