
São Paulo — InkDesign News — Um novo estudo recente destaca os desafios da “vazamento de dados” em modelos de machine learning, especialmente em cenários onde a construção temporal de grafos é crucial para a eficiência das previsões.
Arquitetura de modelo
Modelos baseados em grafos, como as Redes Neurais Gráficas (GNNs), utilizam a estrutura topológica dos dados para aprimorar a capacidade de previsão. No entanto, “quando usamos características gráficas para melhorar nossos modelos, a natureza temporal dos dados deve ser considerada” (When we use graph features to improve our models, the temporal nature of the data must be taken into account)— Erikapa Gomes-Gonçalves, Pesquisadora.
A construção correta de grafos temporais, que encapsulam a história dos dados, permite evitar o vazamento, garantindo que apenas informações do passado sejam utilizadas durante o treinamento.
Treinamento e otimização
O estudo propõe um fluxo de trabalho que envolve a criação de um grafo timestamped e a segmentação temporal dos dados. “Essa abordagem é ideal para prevenir o vazamento de dados, pois garante que apenas informações passadas e presentes sejam usadas na modelagem” (This approach is ideal for preventing data leakage because it ensures that only past and present information is used for modeling)— Erikapa Gomes-Gonçalves, Pesquisadora.
Os pesquisadores simularam um conjunto de dados de sinistros de seguros, com o objetivo de detectar fraudes. As entidades, como números de telefone e placas, foram utilizadas para criar conexões entre os sinistros, permitindo que o modelo capturasse padrões comportamentais suspeitos.
Resultados e métricas
Ao treinar o modelo, os resultados mostraram alta eficácia: “o modelo conseguiu concentrar casos de fraude nos grupos de maior pontuação, alcançando cerca de 2 a 3 vezes melhor detecção nos 10–20% superiores” (the model successfully concentrated fraud cases in the top scoring groups, achieving about 2–3 times better detection in the top 10–20%) — Erikapa Gomes-Gonçalves, Pesquisadora.
Esses achados destacam a importância de entender e corrigir o vazamento de dados, especialmente em contextos críticos como a detecção de fraudes, onde a precisão das previsões pode ter um impacto significativo.
O futuro da pesquisa se concentra em melhorar ainda mais as características dos dados e a calibração dos modelos, visando aumentar a robustez das previsões em cenários do mundo real.
Fonte: (Towards Data Science – AI, ML & Deep Learning)