- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Frontier Vision apresenta Qwen3-VL para modelagem em ML

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

Recentemente, pesquisadores têm revelado a importância de modelos de linguagem visual (VLMs) em machine learning, demonstrando como esses modelos podem extrair informações de documentos através de imagens e texto.

Arquitetura de modelo

O modelo Qwen 3 VL foi lançado recentemente, disponibilizando versões com 235B, 30B e 4B parâmetros. Esses modelos grandes são projetados para processar informações visuais e textuais simultaneamente, superando os sistemas de OCR tradicionais.

“OCR não é perfeito, e o LLM terá que lidar com extração de texto imperfeita”
(“OCR isn’t perfect, and the LLM will have to deal with imperfect text extraction.”)

— Autor, Especialista em VLMs

Treinamento e otimização

Os VLMs, como o Qwen 3 VL, foram treinados utilizando um vasto conjunto de dados que inclui imagens e os textos correspondentes. Essa abordagem permite que eles não apenas reconheçam caracteres, mas também apreendam relações contextuais que são essenciais para a compreensão da informação visual.

Resultados e métricas

Em testes recentes, o Qwen 3 VL demonstrou alta acurácia na extração de informações. Por exemplo, ao aplicar o modelo em um documento da autoridade de planejamento de Oslo, o VLM corretamente extraiu dados como datas e endereços.

“Extract the following information from the image, and reply in JSON format”
(“Extraia as seguintes informações da imagem e responda em formato JSON”)

— Autor, Especialista em VLMs

No entanto, a inferência ainda pode ser lenta e a possibilidade de omissões durante a extração de texto é um desafio. Além disso, VLMs demandam considerável poder computacional, o que limita seu uso em projetos de maior escala.

Próximos passos na pesquisa

Os avanços em modelos de linguagem visual têm potencial para revolucionar a forma como processamos dados visuais e textuais. A aplicação de VLMs em setores como análise de documentos e compreensão de vídeos é promissora, indicando que essa tecnologia será cada vez mais central em futuras pesquisas em deep learning.

Para mais informações sobre Machine Learning, acesse nossas categorias: Machine Learning e Deep Learning.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!