
São Paulo — InkDesign News —
Recentemente, pesquisadores têm revelado a importância de modelos de linguagem visual (VLMs) em machine learning, demonstrando como esses modelos podem extrair informações de documentos através de imagens e texto.
Arquitetura de modelo
O modelo Qwen 3 VL foi lançado recentemente, disponibilizando versões com 235B, 30B e 4B parâmetros. Esses modelos grandes são projetados para processar informações visuais e textuais simultaneamente, superando os sistemas de OCR tradicionais.
“OCR não é perfeito, e o LLM terá que lidar com extração de texto imperfeita”
(“OCR isn’t perfect, and the LLM will have to deal with imperfect text extraction.”)— Autor, Especialista em VLMs
Treinamento e otimização
Os VLMs, como o Qwen 3 VL, foram treinados utilizando um vasto conjunto de dados que inclui imagens e os textos correspondentes. Essa abordagem permite que eles não apenas reconheçam caracteres, mas também apreendam relações contextuais que são essenciais para a compreensão da informação visual.
Resultados e métricas
Em testes recentes, o Qwen 3 VL demonstrou alta acurácia na extração de informações. Por exemplo, ao aplicar o modelo em um documento da autoridade de planejamento de Oslo, o VLM corretamente extraiu dados como datas e endereços.
“Extract the following information from the image, and reply in JSON format”
(“Extraia as seguintes informações da imagem e responda em formato JSON”)— Autor, Especialista em VLMs
No entanto, a inferência ainda pode ser lenta e a possibilidade de omissões durante a extração de texto é um desafio. Além disso, VLMs demandam considerável poder computacional, o que limita seu uso em projetos de maior escala.
Próximos passos na pesquisa
Os avanços em modelos de linguagem visual têm potencial para revolucionar a forma como processamos dados visuais e textuais. A aplicação de VLMs em setores como análise de documentos e compreensão de vídeos é promissora, indicando que essa tecnologia será cada vez mais central em futuras pesquisas em deep learning.
Para mais informações sobre Machine Learning, acesse nossas categorias: Machine Learning e Deep Learning.
Fonte: (Towards Data Science – AI, ML & Deep Learning)