- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Fine-tuning de vLLMs aprimora compreensão de documentos

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —
Um artigo detalha como o fine-tuning em modelos de linguagem visual (VLMs) aprimora a extração de texto manuscrito, usando Qwen 2.5 VL. A técnica demonstra avanços em machine learning, superando OCR tradicional com maior acurácia e eficiência.

Arquitetura de modelo

O estudo utiliza o Qwen 2.5 VL 7B, um modelo grande de linguagem visual que processa imagens por meio de transformadores visuais (ViT) e adaptadores VL, integrando tokens visuais com texto em um espaço embutido comum. Essa arquitetura permite maior sensibilidade ao contexto e instruções específicas, o que melhora a leitura de texto manuscrito não padronizado.

“VLMs superam frequentemente os mecanismos tradicionais de OCR na extração de texto de imagens.”
(“VLMs often outperform traditional OCR engines when extracting text from images.”)

— Eivind Kjosbakken, Data Scientist, Findable

Treinamento e otimização

O processo de fine-tuning supervisionado (SFT) envolveu anotação iterativa em três passos: predição com o modelo base, revisão e correção das falhas, seguida por re-treinamento. Essa abordagem é eficiente quando o modelo inicial apresenta alta acurácia (90–95%). Para garantir ganhos precisos e evitar superajustes, foram aplicadas práticas como taxa de aprendizado baixa, rank LoRA reduzido, balanceamento de dados e ajuste em todas as camadas.

“A corretude dos rótulos é crucial; erros em apenas 0,5% dos dados prejudicam significativamente o desempenho.”
(“Label correctness is of utmost importance. Just a few labeling errors can have a detrimental effect on model performance.”)

— Lars Aurdal, Data Scientist, Findable

O modelo recebeu instruções específicas para distinguir caracteres críticos, como “1” e “7”, com base em traços horizontais presentes no “7”. Essa diferenciação guiada, impossível em OCR tradicionais, é um diferencial dos VLMs.

Resultados e métricas

A avaliação do fine-tuning foi realizada em quatro conjuntos de teste com 278 amostras cada. O Qwen fine-tuned superou consistentemente o modelo base, mostrando melhora significativa na acurácia (até 99%) frente ao EasyOCR, que apresentou falhas severas. O treinamento, realizado em GPUs A100 80GB, durou entre 10 a 20 minutos por ciclo, possibilitando busca extensiva por hiperparâmetros.

“O esforço para melhorar a acurácia de 95% para 99% é exponencialmente maior do que o necessário para alcançar entre 80% e 90%.”
(“Much less effort is required to go from 80–90% accuracy than the effort required to go from 95–99% accuracy.”)

— Eivind Kjosbakken, Data Scientist, Findable

Além disso, os dados extraídos foram visualizados geograficamente no mapa da Noruega utilizando a ferramenta H3 da Uber, evidenciando padrões climáticos relacionados à vegetação.

O avanço no fine-tuning de VLMs abre perspectivas para aplicação em outras áreas que demandam leitura de texto manuscrito, como análises científicas e ambientais. Futuras pesquisas podem explorar adaptação em datasets variados e otimização de hiperparâmetros para acelerar o processo em modelos maiores.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!