- Publicidade -
- Publicidade -
- Publicidade -
Inteligência Artificial

CoSyn torna inteligência artificial de visão acessível a todos

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Pesquisadores da Universidade da Pensilvânia e do Instituto Allen para Inteligência Artificial desenvolveram uma ferramenta inovadora que permite que sistemas de IA de código aberto igualem ou superem as capacidades de entendimento visual de modelos proprietários como GPT-4V e Gemini 1.5 Flash.

Tecnologia e abordagem

A ferramenta, chamada CoSyn (Code-Guided Synthesis), aborda a escassez de dados de treinamento de qualidade para ensinar máquinas a compreender informações visuais complexas, como gráficos científicos e documentos financeiros. Ao contrário das abordagens tradicionais que dependem da coleta de milhões de imagens da internet, a CoSyn utiliza as habilidades de programação de modelos de linguagem para gerar dados de treinamento sintéticos. O modelo reconhece que a maioria das imagens ricas em texto é originalmente criada por meio de código, como scripts Python e documentos LaTeX. “A ideia é usar a capacidade do modelo de linguagem para gerar o código e então executar esse código para criar imagens sintéticas realistas”, explica Yue Yang, co-autora do estudo.

Aplicação e desempenho

A equipe de pesquisa treinou modelos com um dataset sintético de 400.000 imagens e 2,7 milhões de pares de instruções, alcançando um desempenho de ponta entre os sistemas de código aberto. O modelo de 7 bilhões de parâmetros atingiu 80,9% em uma série de benchmarks, superando o melhor modelo de código aberto anterior em 3,9 pontos percentuais. Notavelmente, mesmo o modelo “zero-shot”, treinado sem exemplos dos conjuntos de dados de avaliação, apresentou desempenho superior à maioria dos modelos.

“Apesar de serem treinados com milhões de imagens, observamos que os VLMs de código aberto não são eficientes em dados e têm um desempenho ruim nessa nova tarefa em comparação com o GPT-4V”, afirmam os pesquisadores. Um exemplo significativo foi o benchmark NutritionQA, que, utilizando apenas 7.000 rótulos de nutrição sintéticos, superou modelos treinados com milhões de imagens reais.

Impacto e mercado

A tecnologia já está sendo aplicada em várias indústrias. Um assistente de ensino, por exemplo, compartilha que sua empresa usa modelos de linguagem visual para garantir a qualidade da instalação de cabos por trabalho. Isso indica que a capacidade de treinar modelos em tarefas visuais específicas com dados sintéticos pode transformar fluxos de trabalho empresariais.

“O uso de dados sintéticos remove o esforço de anotação humana, reduz custos e gera dados em grande escala, além de evitar problemas de copyright”, aponta Yang. Os pesquisadores também introduziram um mecanismo de “persona” para diversificar o conteúdo gerado, permitindo a criação de exemplos em categorias como gráficos e documentos.

A abordagem da CoSyn pode nivelar o campo de jogo entre modelos de código aberto e grandes empresas que investem bilhões em desenvolvimento, promovendo uma competição saudável na área. A transparência do projeto, com o código e dados totalmente disponíveis, reflete um compromisso com o desenvolvimento aberto da IA.

Os próximos passos incluem a extensão do uso de dados sintéticos para aplicações em imagens médicas e outras áreas. Com o avanço das capacidades da IA, espera-se que as soluções baseadas em dados sintéticos se tornem cada vez mais integradas nas práticas de mercado.

Fonte: (VentureBeat – AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!