Modelos tabulares de ML estão transformando a ciência de dados

São Paulo — InkDesign News — Pesquisadores estão explorando novos horizontes em “machine learning” através de Modelos Fundamentais Tabulares (TFMs), que prometem transformar a forma como lidamos com dados estruturados.
Arquitetura de modelo
Os TFMs utilizam arquiteturas baseadas em redes neurais, particularmente implementações do módulo Transformer, que é conhecido por sua capacidade de atenção, permitindo assim contextualizar informações dentro de tabelas. “O uso de dados sintéticos oferece várias vantagens” (The use of synthetic data offers several advantages)— Frank Hutter, Professor, Prior Labs.
Com esta abordagem, um único modelo é treinado para prever uma coluna a partir de outras, utilizando a própria tabela como contexto preditivo. Este procedimento é análogo ao que os modelos de linguagem grande (LLMs) fazem com textos.
Treinamento e otimização
O pré-treinamento de um TFM pode demandar várias dezenas de dias de GPU, um custo normalmente suportado pelos provedores de modelos. “Uma vez pré-treinado, o TFM combina aprendizado e inferência em uma única passagem” (Once pretrained, such models could be applied directly to any tabular dataset)— Gaël Varoquaux, Pesquisador, Inria Soda.
Em contrapartida, modelos tradicionais, como o XGBoost, exigem re-treinamento completo para cada nova tabela, processo que pode levar horas. A capacidade dos TFMs de operar em diferentes conjuntos de dados sem necessidade de novo treinamento é um avanço significativo.
Resultados e métricas
Os TFMs mostraram notável desempenho em comparação com técnicas tradicionais, com métricas que indicam melhor calibração nas previsões. “As previsões do TabPFN parecem significativamente melhores calibradas” (The predictions from TabPFN appear to be significantly better calibrated)— Simon Müller, Pesquisador, Prior Labs.
Além disso, os modelos demonstraram menor necessidade de ajuste de hiperparâmetros, frequentemente superando algoritmos clássicos mesmo em configurações padrão. A pesquisa indica que a robustez dos TFMs a dados faltantes e a outliers é notável, aumentando sua aplicabilidade em campos diversos como finanças e ciências sociais.
Com os TFMs, espera-se uma mudança radical na abordagem de ciência de dados, focando mais em dados representativos do que em modelagens específicas. As próximas etapas dessa pesquisa poderão permitir a geração de modelos preditivos rápido e eficiente para conjuntos de dados variados.
Fonte: (Towards Data Science – AI, ML & Deep Learning)