- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Granite-Vision 2B supera modelo de 90B com fine-tuning

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — Em uma nova abordagem de machine learning, pesquisadores aperfeiçoaram o modelo vision-language Granite-Vision 2B, tornando-o capaz de extrair tabelas de imagens e convertê-las em código HTML limpo, superando modelos significativamente maiores.

Arquitetura de modelo

O modelo escolhido para a tarefa é o Granite-Vision 2B, um modelo vision-language com 2 bilhões de parâmetros. Este modelo foi afinado utilizando a técnica de LoRA (Low-Rank Adaptation), permitindo que ajustes sejam feitos com apenas uma fração dos parâmetros. Essa metodologia se mostrou eficaz, visto que a fine-tuning foi realizada em uma GPU de consumo, a NVIDIA RTX 4070 Ti Super, que possui 16 GB de VRAM.

Treinamento e otimização

O treinamento envolveu a utilização do dataset PubTabNet-HTML, que contém mais de 568.000 pares de imagens e códigos HTML. Para medir a eficácia do modelo, uma métrica de Similaridade HTML foi desenvolvida, considerando não apenas o texto gerado, mas também a estrutura e o estilo do HTML. Essa métrica se revelou útil, uma vez que métricas padrão como BLEU e ROUGE não atingiram resultados satisfatórios na avaliação de tabelas HTML.

“Essa abordagem demonstrou que modelos pequenos e especializados podem entregar resultados excepcionais sem a necessidade de grandes infraestruturas de computação.”
(“This approach demonstrated that small, specialized models can deliver outstanding results without the need for large computing infrastructures.”)

— Pesquisador da Universidade de São Paulo

Resultados e métricas

Os resultados do afino mostraram uma melhoria significativa em relação ao modelo base. O modelo fine-tunado alcançou um índice de Similaridade HTML superior a 0,77, um ganho de 21 pontos percentuais em comparação com a versão original. Isso foi conseguido em menos de 8 horas de treinamento, destacando a viabilidade de usar hardware de consumo para tarefas complexas.

Os índices de desempenho do modelo foram comparados com dois outros modelos de referência, incluindo o Llama-3.2–90B-Vision e o pix2struct-base-table2html. O modelo ajustado não apenas apresentou rapidez superior em inferência, mas também demonstrou uma acurácia aprimorada em tarefas específicas de extração de tabela.

“O fine-tuning focado e a engenhosidade na escolha do modelo contribuíram para resultados significativos, desafiando modelos de bilhões de parâmetros.”
(“Focused fine-tuning and ingenuity in model selection contributed to significant results, challenging billion-parameter models.”)

— Pesquisador da IBM

O foco da pesquisa se volta agora para aprimoramentos potenciais na engenharia de prompts e na inclusão de camadas de visão durante o treinamento, visando otimizar modelos para futuras aplicações em extração de dados e automação de documentos.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!