Fine-tuning de vLLMs aprimora compreensão de documentos

- Publicidade -

Tiago F Santiago 05/05/2025Última Atualização 05/05/2025

0 49 2 minutos de leitura

Fine-tuning de vLLMs aprimora compreensão de documentos — In this article, we will extract the text from these kinds of images using Qwen 2.5 VL. These cells are extracted from tables like the one in the featured image, using image processing techniques that will be covered in a separate article. Image by the author.

- Publicidade -

São Paulo — InkDesign News —
Um artigo detalha como o fine-tuning em modelos de linguagem visual (VLMs) aprimora a extração de texto manuscrito, usando Qwen 2.5 VL. A técnica demonstra avanços em machine learning, superando OCR tradicional com maior acurácia e eficiência.

Arquitetura de modelo

O estudo utiliza o Qwen 2.5 VL 7B, um modelo grande de linguagem visual que processa imagens por meio de transformadores visuais (ViT) e adaptadores VL, integrando tokens visuais com texto em um espaço embutido comum. Essa arquitetura permite maior sensibilidade ao contexto e instruções específicas, o que melhora a leitura de texto manuscrito não padronizado.

“VLMs superam frequentemente os mecanismos tradicionais de OCR na extração de texto de imagens.”
(“VLMs often outperform traditional OCR engines when extracting text from images.”)

— Eivind Kjosbakken, Data Scientist, Findable

Treinamento e otimização

O processo de fine-tuning supervisionado (SFT) envolveu anotação iterativa em três passos: predição com o modelo base, revisão e correção das falhas, seguida por re-treinamento. Essa abordagem é eficiente quando o modelo inicial apresenta alta acurácia (90–95%). Para garantir ganhos precisos e evitar superajustes, foram aplicadas práticas como taxa de aprendizado baixa, rank LoRA reduzido, balanceamento de dados e ajuste em todas as camadas.

“A corretude dos rótulos é crucial; erros em apenas 0,5% dos dados prejudicam significativamente o desempenho.”
(“Label correctness is of utmost importance. Just a few labeling errors can have a detrimental effect on model performance.”)

— Lars Aurdal, Data Scientist, Findable

O modelo recebeu instruções específicas para distinguir caracteres críticos, como “1” e “7”, com base em traços horizontais presentes no “7”. Essa diferenciação guiada, impossível em OCR tradicionais, é um diferencial dos VLMs.

Resultados e métricas

A avaliação do fine-tuning foi realizada em quatro conjuntos de teste com 278 amostras cada. O Qwen fine-tuned superou consistentemente o modelo base, mostrando melhora significativa na acurácia (até 99%) frente ao EasyOCR, que apresentou falhas severas. O treinamento, realizado em GPUs A100 80GB, durou entre 10 a 20 minutos por ciclo, possibilitando busca extensiva por hiperparâmetros.

“O esforço para melhorar a acurácia de 95% para 99% é exponencialmente maior do que o necessário para alcançar entre 80% e 90%.”
(“Much less effort is required to go from 80–90% accuracy than the effort required to go from 95–99% accuracy.”)

— Eivind Kjosbakken, Data Scientist, Findable

Além disso, os dados extraídos foram visualizados geograficamente no mapa da Noruega utilizando a ferramenta H3 da Uber, evidenciando padrões climáticos relacionados à vegetação.

O avanço no fine-tuning de VLMs abre perspectivas para aplicação em outras áreas que demandam leitura de texto manuscrito, como análises científicas e ambientais. Futuras pesquisas podem explorar adaptação em datasets variados e otimização de hiperparâmetros para acelerar o processo em modelos maiores.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -

Etiquetas

Tiago F Santiago 05/05/2025Última Atualização 05/05/2025

0 49 2 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Fine-tuning de vLLMs aprimora compreensão de documentos

Arquitetura de modelo

Treinamento e otimização

Resultados e métricas

Tiago F Santiago

Ler o Próximo

Python verifica representatividade de dados em machine learning

Federated Learning combate ataques com técnicas de ML

Redes neurais melhoram acurácia em modelos de ML

Avaliações baseadas em tarefas impulsionam a modelagem em ML

LangGraph otimiza planejamento orçamentário com AI

Modelos de AI aprimoram processamento de milhões de requisições

Algoritmo húngaro otimiza modelagem em visão computacional

LangGraph 201 adiciona supervisão humana à modelagem de AI

Python explora Merit Order e curva de custo de abate com ML

Implementando o desafio Gaussiano com machine learning

Python verifica representatividade de dados em machine learning

Federated Learning combate ataques com técnicas de ML

Redes neurais melhoram acurácia em modelos de ML

Avaliações baseadas em tarefas impulsionam a modelagem em ML

LangGraph otimiza planejamento orçamentário com AI

Modelos de AI aprimoram processamento de milhões de requisições

Algoritmo húngaro otimiza modelagem em visão computacional

LangGraph 201 adiciona supervisão humana à modelagem de AI

Python explora Merit Order e curva de custo de abate com ML

Implementando o desafio Gaussiano com machine learning

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Arquitetura de modelo

Treinamento e otimização

Resultados e métricas

Ler o Próximo

Python verifica representatividade de dados em machine learning

Federated Learning combate ataques com técnicas de ML

Redes neurais melhoram acurácia em modelos de ML

Avaliações baseadas em tarefas impulsionam a modelagem em ML

LangGraph otimiza planejamento orçamentário com AI

Modelos de AI aprimoram processamento de milhões de requisições

Algoritmo húngaro otimiza modelagem em visão computacional

LangGraph 201 adiciona supervisão humana à modelagem de AI

Python explora Merit Order e curva de custo de abate com ML

Implementando o desafio Gaussiano com machine learning

Flamengo busca gol de João Félix no Mundial de Clubes

TCU autoriza concurso com 60 vagas para reforço no mercado público

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado