CoSyn torna inteligência artificial de visão acessível a todos

- Publicidade -

Tiago F Santiago 25/07/2025Última Atualização 25/07/2025

0 0 2 minutos de leitura

CoSyn torna inteligência artificial de visão acessível a todos — CoSyn-trained models outperformed GPT-4V and Gemini 1.5 Flash across seven text-rich image understanding benchmarks. (Credit: github.io/cosyn)

- Publicidade -

São Paulo — InkDesign News — Pesquisadores da Universidade da Pensilvânia e do Instituto Allen para Inteligência Artificial desenvolveram uma ferramenta inovadora que permite que sistemas de IA de código aberto igualem ou superem as capacidades de entendimento visual de modelos proprietários como GPT-4V e Gemini 1.5 Flash.

Tecnologia e abordagem

A ferramenta, chamada CoSyn (Code-Guided Synthesis), aborda a escassez de dados de treinamento de qualidade para ensinar máquinas a compreender informações visuais complexas, como gráficos científicos e documentos financeiros. Ao contrário das abordagens tradicionais que dependem da coleta de milhões de imagens da internet, a CoSyn utiliza as habilidades de programação de modelos de linguagem para gerar dados de treinamento sintéticos. O modelo reconhece que a maioria das imagens ricas em texto é originalmente criada por meio de código, como scripts Python e documentos LaTeX. “A ideia é usar a capacidade do modelo de linguagem para gerar o código e então executar esse código para criar imagens sintéticas realistas”, explica Yue Yang, co-autora do estudo.

Aplicação e desempenho

A equipe de pesquisa treinou modelos com um dataset sintético de 400.000 imagens e 2,7 milhões de pares de instruções, alcançando um desempenho de ponta entre os sistemas de código aberto. O modelo de 7 bilhões de parâmetros atingiu 80,9% em uma série de benchmarks, superando o melhor modelo de código aberto anterior em 3,9 pontos percentuais. Notavelmente, mesmo o modelo “zero-shot”, treinado sem exemplos dos conjuntos de dados de avaliação, apresentou desempenho superior à maioria dos modelos.

“Apesar de serem treinados com milhões de imagens, observamos que os VLMs de código aberto não são eficientes em dados e têm um desempenho ruim nessa nova tarefa em comparação com o GPT-4V”, afirmam os pesquisadores. Um exemplo significativo foi o benchmark NutritionQA, que, utilizando apenas 7.000 rótulos de nutrição sintéticos, superou modelos treinados com milhões de imagens reais.

Impacto e mercado

A tecnologia já está sendo aplicada em várias indústrias. Um assistente de ensino, por exemplo, compartilha que sua empresa usa modelos de linguagem visual para garantir a qualidade da instalação de cabos por trabalho. Isso indica que a capacidade de treinar modelos em tarefas visuais específicas com dados sintéticos pode transformar fluxos de trabalho empresariais.

“O uso de dados sintéticos remove o esforço de anotação humana, reduz custos e gera dados em grande escala, além de evitar problemas de copyright”, aponta Yang. Os pesquisadores também introduziram um mecanismo de “persona” para diversificar o conteúdo gerado, permitindo a criação de exemplos em categorias como gráficos e documentos.

A abordagem da CoSyn pode nivelar o campo de jogo entre modelos de código aberto e grandes empresas que investem bilhões em desenvolvimento, promovendo uma competição saudável na área. A transparência do projeto, com o código e dados totalmente disponíveis, reflete um compromisso com o desenvolvimento aberto da IA.

Os próximos passos incluem a extensão do uso de dados sintéticos para aplicações em imagens médicas e outras áreas. Com o avanço das capacidades da IA, espera-se que as soluções baseadas em dados sintéticos se tornem cada vez mais integradas nas práticas de mercado.

Fonte: (VentureBeat – AI)

- Publicidade -

Etiquetas

Tiago F Santiago 25/07/2025Última Atualização 25/07/2025

0 0 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

CoSyn torna inteligência artificial de visão acessível a todos

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Tiago F Santiago

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Tecnologia e abordagem

Aplicação e desempenho

Impacto e mercado

Ler o Próximo

Terapia com ChatGPT: como a inteligência artificial influencia clientes

Desafios da inteligência artificial na eficiência energética

Peak Ji impulsiona aplicações globais de inteligência artificial

Inteligência artificial transforma o futuro dos bancos

Synthesia aprimora IA que pode interagir de forma expressiva

Inteligência artificial transforma o futuro das empresas

MIT desenvolve algoritmos para engajar o cliente conectado

Inteligência artificial melhora eficiência em provedores de saúde

Therapeutas usam GPT em consultas, clientes se sentem impactados

AI doppelgänger auxilia na otimização de tarefas profissionais

VShojo enfrenta críticas após pedido de desculpas do CEO

Prompt engineering transforma AI com modelos de deep learning

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado