CoSyn torna inteligência artificial de visão acessível a todos

São Paulo — InkDesign News — Pesquisadores da Universidade da Pensilvânia e do Instituto Allen para Inteligência Artificial desenvolveram uma ferramenta inovadora que permite que sistemas de IA de código aberto igualem ou superem as capacidades de entendimento visual de modelos proprietários como GPT-4V e Gemini 1.5 Flash.
Tecnologia e abordagem
A ferramenta, chamada CoSyn (Code-Guided Synthesis), aborda a escassez de dados de treinamento de qualidade para ensinar máquinas a compreender informações visuais complexas, como gráficos científicos e documentos financeiros. Ao contrário das abordagens tradicionais que dependem da coleta de milhões de imagens da internet, a CoSyn utiliza as habilidades de programação de modelos de linguagem para gerar dados de treinamento sintéticos. O modelo reconhece que a maioria das imagens ricas em texto é originalmente criada por meio de código, como scripts Python e documentos LaTeX. “A ideia é usar a capacidade do modelo de linguagem para gerar o código e então executar esse código para criar imagens sintéticas realistas”, explica Yue Yang, co-autora do estudo.
Aplicação e desempenho
A equipe de pesquisa treinou modelos com um dataset sintético de 400.000 imagens e 2,7 milhões de pares de instruções, alcançando um desempenho de ponta entre os sistemas de código aberto. O modelo de 7 bilhões de parâmetros atingiu 80,9% em uma série de benchmarks, superando o melhor modelo de código aberto anterior em 3,9 pontos percentuais. Notavelmente, mesmo o modelo “zero-shot”, treinado sem exemplos dos conjuntos de dados de avaliação, apresentou desempenho superior à maioria dos modelos.
“Apesar de serem treinados com milhões de imagens, observamos que os VLMs de código aberto não são eficientes em dados e têm um desempenho ruim nessa nova tarefa em comparação com o GPT-4V”, afirmam os pesquisadores. Um exemplo significativo foi o benchmark NutritionQA, que, utilizando apenas 7.000 rótulos de nutrição sintéticos, superou modelos treinados com milhões de imagens reais.
Impacto e mercado
A tecnologia já está sendo aplicada em várias indústrias. Um assistente de ensino, por exemplo, compartilha que sua empresa usa modelos de linguagem visual para garantir a qualidade da instalação de cabos por trabalho. Isso indica que a capacidade de treinar modelos em tarefas visuais específicas com dados sintéticos pode transformar fluxos de trabalho empresariais.
“O uso de dados sintéticos remove o esforço de anotação humana, reduz custos e gera dados em grande escala, além de evitar problemas de copyright”, aponta Yang. Os pesquisadores também introduziram um mecanismo de “persona” para diversificar o conteúdo gerado, permitindo a criação de exemplos em categorias como gráficos e documentos.
A abordagem da CoSyn pode nivelar o campo de jogo entre modelos de código aberto e grandes empresas que investem bilhões em desenvolvimento, promovendo uma competição saudável na área. A transparência do projeto, com o código e dados totalmente disponíveis, reflete um compromisso com o desenvolvimento aberto da IA.
Os próximos passos incluem a extensão do uso de dados sintéticos para aplicações em imagens médicas e outras áreas. Com o avanço das capacidades da IA, espera-se que as soluções baseadas em dados sintéticos se tornem cada vez mais integradas nas práticas de mercado.
Fonte: (VentureBeat – AI)