OpenVision chega para aprimorar modelos de AI de visão

- Publicidade -

Tiago F Santiago 12/05/2025Última Atualização 12/05/2025

0 65 2 minutos de leitura

OpenVision chega para aprimorar modelos de AI de visão — New fully open source vision encoder OpenVision arrives to improve on OpenAI's Clip, Google's SigLIP

- Publicidade -

São Paulo — InkDesign News — A Universidade da Califórnia, Santa Cruz, lançou o OpenVision, uma família de codificadores visuais que visa oferecer uma alternativa aos modelos CLIP da OpenAI e SigLIP do Google, revolucionando as interações entre inteligência artificial e imagens.

Tecnologia e abordagem

OpenVision é um modelo de codificador de visão que transforma material visual, como imagens estáticas, em dados numéricos compreensíveis por modelos de linguagem baseados em inteligência artificial (LLMs). Essa transformação é essencial para permitir que LLMs identifiquem e analisem diversos aspectos visuais. O OpenVision apresenta uma arquitetura escalável e modular, com 26 variantes diferentes, variando de 5,9 a 632,1 milhões de parâmetros, o que permite sua adaptação a diversas necessidades de uso.

O modelo utiliza uma estratégia de treinamento progressivo que começa com imagens de baixa resolução e passa para resoluções mais altas. Isso resulta em uma economia significativa de recursos computacionais, tornando o treinamento de 2 a 3 vezes mais rápido do que os modelos tradicionais, como CLIP e SigLIP, sem sacrificar a performance nas tarefas downstream.

Aplicação e desempenho

Os resultados de benchmarks demonstram que o OpenVision supera ou iguala o desempenho do CLIP e do SigLIP em várias tarefas multimodais como classificação de imagens e recuperação. Embora os benchmarks clássicos do CLIP, como ImageNet e MSCOCO, façam parte da avaliação, a equipe do OpenVision ressalta que, para uma compreensão mais complexa, é necessário ir além dessas métricas.

“

Resultados fortes em classificação de imagem não necessariamente se traduzem em sucesso em raciocínio multimodal complexo.
(“Strong performance on image classification or retrieval does not necessarily translate to success in complex multimodal reasoning.”)

— Cihang Xie, Professor Assistente, UCSC

”

O modelo também se destaca em tarefas que exigem uma compreensão sofisticada, como OCR e questionamento visual baseado em gráficos, demonstrando uma abordagem robusta para contextos de uso real.

Impacto e mercado

A disponibilidade do OpenVision sob a licença Apache 2.0 possibilita seu uso em aplicações comerciais, reduzindo a dependência de APIs de terceiros e promovendo uma maior otimização nas aplicações de visão-linguagem. Com modelos de diferentes escalas, desde opções leves até robustas, a versatilidade do OpenVision é um atrativo para engenheiros de IA que buscam uma solução integrada e segura.

Com a possibilidade de operar em dispositivos de baixa capacidade e ambientes restritos, o OpenVision tem grande potencial em áreas como smartphones e sistemas de câmeras em fábricas, transformando a forma como as empresas implementam soluções de inteligência artificial em suas operações.

“

OpenVision ajuda a reduzir o bloqueio de fornecedores e oferece as vantagens da IA multimodal moderna nas operações, controlando a personalização e a transparência operacional.
(“OpenVision helps reduce vendor lock-in and brings the benefits of modern multimodal AI into workflows that demand control, customization, and operational transparency.”)

— Cihang Xie, Professor Assistente, UCSC

”

Os próximos passos envolvem o aprimoramento do OpenVision para atender a uma gama ainda mais ampla de casos de uso e o desenvolvimento contínuo de seus frameworks para criar uma infraestrutura multimodal aberta mais eficiente.

Fonte: (VentureBeat – AI)

- Publicidade -

Etiquetas

Tiago F Santiago 12/05/2025Última Atualização 12/05/2025

0 65 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

OpenVision chega para aprimorar modelos de AI de visão

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Tiago F Santiago

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Ancelotti assume Seleção e gera repercussão mundial na vitória

a16z aponta incertezas sobre o conceito de agente de IA

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado