
São Paulo — InkDesign News — Em uma nova abordagem de machine learning, pesquisadores aperfeiçoaram o modelo vision-language Granite-Vision 2B, tornando-o capaz de extrair tabelas de imagens e convertê-las em código HTML limpo, superando modelos significativamente maiores.
Arquitetura de modelo
O modelo escolhido para a tarefa é o Granite-Vision 2B, um modelo vision-language com 2 bilhões de parâmetros. Este modelo foi afinado utilizando a técnica de LoRA (Low-Rank Adaptation), permitindo que ajustes sejam feitos com apenas uma fração dos parâmetros. Essa metodologia se mostrou eficaz, visto que a fine-tuning foi realizada em uma GPU de consumo, a NVIDIA RTX 4070 Ti Super, que possui 16 GB de VRAM.
Treinamento e otimização
O treinamento envolveu a utilização do dataset PubTabNet-HTML, que contém mais de 568.000 pares de imagens e códigos HTML. Para medir a eficácia do modelo, uma métrica de Similaridade HTML foi desenvolvida, considerando não apenas o texto gerado, mas também a estrutura e o estilo do HTML. Essa métrica se revelou útil, uma vez que métricas padrão como BLEU e ROUGE não atingiram resultados satisfatórios na avaliação de tabelas HTML.
“Essa abordagem demonstrou que modelos pequenos e especializados podem entregar resultados excepcionais sem a necessidade de grandes infraestruturas de computação.”
(“This approach demonstrated that small, specialized models can deliver outstanding results without the need for large computing infrastructures.”)— Pesquisador da Universidade de São Paulo
Resultados e métricas
Os resultados do afino mostraram uma melhoria significativa em relação ao modelo base. O modelo fine-tunado alcançou um índice de Similaridade HTML superior a 0,77, um ganho de 21 pontos percentuais em comparação com a versão original. Isso foi conseguido em menos de 8 horas de treinamento, destacando a viabilidade de usar hardware de consumo para tarefas complexas.
Os índices de desempenho do modelo foram comparados com dois outros modelos de referência, incluindo o Llama-3.2–90B-Vision e o pix2struct-base-table2html. O modelo ajustado não apenas apresentou rapidez superior em inferência, mas também demonstrou uma acurácia aprimorada em tarefas específicas de extração de tabela.
“O fine-tuning focado e a engenhosidade na escolha do modelo contribuíram para resultados significativos, desafiando modelos de bilhões de parâmetros.”
(“Focused fine-tuning and ingenuity in model selection contributed to significant results, challenging billion-parameter models.”)— Pesquisador da IBM
O foco da pesquisa se volta agora para aprimoramentos potenciais na engenharia de prompts e na inclusão de camadas de visão durante o treinamento, visando otimizar modelos para futuras aplicações em extração de dados e automação de documentos.
Fonte: (Towards Data Science – AI, ML & Deep Learning)