
São Paulo — InkDesign News — A chinesa Alibaba anunciou o lançamento do modelo multimodal Qwen2.5-Omni-3B, uma versão compacta com 3 bilhões de parâmetros de sua arquitetura avançada de inteligência artificial (IA) capaz de processar texto, áudio, imagem e vídeo. Projetado para rodar em hardware consumidor, o modelo propõe expandir o acesso à tecnologia multimodal com menor consumo de memória, mantendo alta performance em deep learning.
Tecnologia e abordagem
Qwen2.5-Omni-3B é um modelo multimodal que utiliza uma arquitetura de 3 bilhões de parâmetros, reduzida em relação à versão original de 7 bilhões, mas que mantém mais de 90% da performance em múltiplas tarefas. Entre os destaques técnicos, está o uso da arquitetura Thinker-Talker e do método customizado de embedding posicional TMRoPE, que sincroniza dados de vídeo e áudio para uma compreensão integrada. Essa otimização permite reduzir em mais de 50% o uso da memória de GPU quando lidando com contextos longos, beneficiando uso em GPUs de 24GB presentes em desktops e laptops avançados.
Aplicação e desempenho
O modelo suporta entrada simultânea de múltiplas modalidades e consegue gerar texto e voz em tempo real, incluindo opções de personalização de voz entre masculina e feminina. Benchmarks mostram que o Qwen2.5-Omni-3B alcança resultados competitivos em comparação ao modelo maior, apresentando notas próximas em testes como OmniBench (multimodal), VideoBench (áudio) e Seed-tts-eval (síntese vocal). Essa eficiência torna o modelo viável para aplicações que exigem interação em tempo real com múltiplos formatos de dados.
Impacto e mercado
Apesar do potencial técnico, o modelo está disponível sob licença para uso exclusivamente acadêmico e de pesquisa, impossibilitando sua aplicação comercial sem licença adicional da Alibaba. Isso cria um cenário onde Qwen2.5-Omni-3B se apresenta mais como uma ferramenta para avaliação, prototipagem e pesquisa de viabilidade do que para implementação direta em produtos comerciais.
“Enquanto muitos usuários desejam um modelo Omni menor para implantação, nós então construímos este.”
(“While a lot of users hope for smaller Omni model for deployment we then build this.”)— Junyang Lin, Equipe Qwen, Alibaba
Para executivos e profissionais de infraestrutura, o lançamento destaca uma alternativa técnica para explorar multimodalidade com recursos reduzidos, mas reforça a necessidade de negociação para usos comerciais. O Qwen2.5-Omni-3B representa um avanço estratégico na acessibilidade da IA multimodal, mas com restrições claras sobre seu uso final.
Fonte: (VentureBeat – AI)