
São Paulo — InkDesign News — A Universidade da Califórnia, Santa Cruz, lançou o OpenVision, uma família de codificadores visuais que visa oferecer uma alternativa aos modelos CLIP da OpenAI e SigLIP do Google, revolucionando as interações entre inteligência artificial e imagens.
Tecnologia e abordagem
OpenVision é um modelo de codificador de visão que transforma material visual, como imagens estáticas, em dados numéricos compreensíveis por modelos de linguagem baseados em inteligência artificial (LLMs). Essa transformação é essencial para permitir que LLMs identifiquem e analisem diversos aspectos visuais. O OpenVision apresenta uma arquitetura escalável e modular, com 26 variantes diferentes, variando de 5,9 a 632,1 milhões de parâmetros, o que permite sua adaptação a diversas necessidades de uso.
O modelo utiliza uma estratégia de treinamento progressivo que começa com imagens de baixa resolução e passa para resoluções mais altas. Isso resulta em uma economia significativa de recursos computacionais, tornando o treinamento de 2 a 3 vezes mais rápido do que os modelos tradicionais, como CLIP e SigLIP, sem sacrificar a performance nas tarefas downstream.
Aplicação e desempenho
Os resultados de benchmarks demonstram que o OpenVision supera ou iguala o desempenho do CLIP e do SigLIP em várias tarefas multimodais como classificação de imagens e recuperação. Embora os benchmarks clássicos do CLIP, como ImageNet e MSCOCO, façam parte da avaliação, a equipe do OpenVision ressalta que, para uma compreensão mais complexa, é necessário ir além dessas métricas.
“
Resultados fortes em classificação de imagem não necessariamente se traduzem em sucesso em raciocínio multimodal complexo.
(“Strong performance on image classification or retrieval does not necessarily translate to success in complex multimodal reasoning.”)— Cihang Xie, Professor Assistente, UCSC
”
O modelo também se destaca em tarefas que exigem uma compreensão sofisticada, como OCR e questionamento visual baseado em gráficos, demonstrando uma abordagem robusta para contextos de uso real.
Impacto e mercado
A disponibilidade do OpenVision sob a licença Apache 2.0 possibilita seu uso em aplicações comerciais, reduzindo a dependência de APIs de terceiros e promovendo uma maior otimização nas aplicações de visão-linguagem. Com modelos de diferentes escalas, desde opções leves até robustas, a versatilidade do OpenVision é um atrativo para engenheiros de IA que buscam uma solução integrada e segura.
Com a possibilidade de operar em dispositivos de baixa capacidade e ambientes restritos, o OpenVision tem grande potencial em áreas como smartphones e sistemas de câmeras em fábricas, transformando a forma como as empresas implementam soluções de inteligência artificial em suas operações.
“
OpenVision ajuda a reduzir o bloqueio de fornecedores e oferece as vantagens da IA multimodal moderna nas operações, controlando a personalização e a transparência operacional.
(“OpenVision helps reduce vendor lock-in and brings the benefits of modern multimodal AI into workflows that demand control, customization, and operational transparency.”)— Cihang Xie, Professor Assistente, UCSC
”
Os próximos passos envolvem o aprimoramento do OpenVision para atender a uma gama ainda mais ampla de casos de uso e o desenvolvimento contínuo de seus frameworks para criar uma infraestrutura multimodal aberta mais eficiente.
Fonte: (VentureBeat – AI)