- Publicidade -
- Publicidade -
Inteligência Artificial

OpenVision chega para aprimorar modelos de AI de visão

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — A Universidade da Califórnia, Santa Cruz, lançou o OpenVision, uma família de codificadores visuais que visa oferecer uma alternativa aos modelos CLIP da OpenAI e SigLIP do Google, revolucionando as interações entre inteligência artificial e imagens.

Tecnologia e abordagem

OpenVision é um modelo de codificador de visão que transforma material visual, como imagens estáticas, em dados numéricos compreensíveis por modelos de linguagem baseados em inteligência artificial (LLMs). Essa transformação é essencial para permitir que LLMs identifiquem e analisem diversos aspectos visuais. O OpenVision apresenta uma arquitetura escalável e modular, com 26 variantes diferentes, variando de 5,9 a 632,1 milhões de parâmetros, o que permite sua adaptação a diversas necessidades de uso.

O modelo utiliza uma estratégia de treinamento progressivo que começa com imagens de baixa resolução e passa para resoluções mais altas. Isso resulta em uma economia significativa de recursos computacionais, tornando o treinamento de 2 a 3 vezes mais rápido do que os modelos tradicionais, como CLIP e SigLIP, sem sacrificar a performance nas tarefas downstream.

Aplicação e desempenho

Os resultados de benchmarks demonstram que o OpenVision supera ou iguala o desempenho do CLIP e do SigLIP em várias tarefas multimodais como classificação de imagens e recuperação. Embora os benchmarks clássicos do CLIP, como ImageNet e MSCOCO, façam parte da avaliação, a equipe do OpenVision ressalta que, para uma compreensão mais complexa, é necessário ir além dessas métricas.

Resultados fortes em classificação de imagem não necessariamente se traduzem em sucesso em raciocínio multimodal complexo.
(“Strong performance on image classification or retrieval does not necessarily translate to success in complex multimodal reasoning.”)

— Cihang Xie, Professor Assistente, UCSC

O modelo também se destaca em tarefas que exigem uma compreensão sofisticada, como OCR e questionamento visual baseado em gráficos, demonstrando uma abordagem robusta para contextos de uso real.

Impacto e mercado

A disponibilidade do OpenVision sob a licença Apache 2.0 possibilita seu uso em aplicações comerciais, reduzindo a dependência de APIs de terceiros e promovendo uma maior otimização nas aplicações de visão-linguagem. Com modelos de diferentes escalas, desde opções leves até robustas, a versatilidade do OpenVision é um atrativo para engenheiros de IA que buscam uma solução integrada e segura.

Com a possibilidade de operar em dispositivos de baixa capacidade e ambientes restritos, o OpenVision tem grande potencial em áreas como smartphones e sistemas de câmeras em fábricas, transformando a forma como as empresas implementam soluções de inteligência artificial em suas operações.

OpenVision ajuda a reduzir o bloqueio de fornecedores e oferece as vantagens da IA multimodal moderna nas operações, controlando a personalização e a transparência operacional.
(“OpenVision helps reduce vendor lock-in and brings the benefits of modern multimodal AI into workflows that demand control, customization, and operational transparency.”)

— Cihang Xie, Professor Assistente, UCSC

Os próximos passos envolvem o aprimoramento do OpenVision para atender a uma gama ainda mais ampla de casos de uso e o desenvolvimento contínuo de seus frameworks para criar uma infraestrutura multimodal aberta mais eficiente.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!