Clique-Based Compression otimiza armazenamento em machine learning

São Paulo — InkDesign News — O armazenamento eficiente de dados desempenha um papel vital em aplicações de machine learning e deep learning, especialmente quando se trata de gerenciar relações complexas entre registros em grandes conjuntos de dados.
Arquitetura de modelo
O modelo de grafo implementado pela Tilores representa entidades como grafos, onde cada nó simboliza um registro e as arestas representam as correspondências baseadas em regras entre esses registros. Isso proporciona flexibilidade e rastreabilidade, mas também resulta em desafios significativos de armazenamento, especialmente em larga escala.
“Mantendo todas as arestas em um grafo de entidades, temos a rastreabilidade que permite ao usuário entender como dois registros foram agrupados na mesma entidade.”
(“Retaining all edges in an entity graph allows the user to understand why two records were grouped into the same entity.”)— Autor, Tilores
Treinamento e otimização
Uma das principais dificuldades do modelo é o crescimento quadrático no número de arestas ao adicionar novos registros. Para n registros, o número de arestas é dado pela fórmula: n * (n – 1) / 2. Este desafio implica uma sobrecarga imensa em armazenamento e processamento quando o número de registros aumenta.
“Uma vez que os gráficos de resolução de entidades frequentemente apresentam este tipo de conectividade densa, os problemas de escalabilidade aumentam.”
(“As entity resolution graphs often exhibit this kind of dense connectivity, scaling issues compound.”)— Autor, Tilores
Resultados e métricas
A compressão baseada em cliques (CBGC) foi proposta como solução para esses problemas, permitindo economizar em armazenamento ao representar grupos de nós que estão interconectados. Por exemplo, ao invés de armazenar todas as arestas, as cliques podem ser representadas simplesmente como grupos de nós, reduzindo o espaço de armazenamento necessário em até 99,7% em alguns casos.
“CBGC permite operações mais rápidas, especialmente ao lidar com a exclusão de registros e arestas, tornando o sistema mais eficiente.”
(“CBGC enables faster operations, particularly when dealing with record and edge deletion.”)— Autor, Tilores
As implicações práticas desse modelo são vastas. Com um armazenamento mais eficiente e operações mais rápidas, o uso de abordagem baseada em clique pode ser aplicado em sistemas de gerenciamento de dados mestres, análise de dados e até mesmo em aplicações em tempo real, permitindo que as organizações avancem em suas iniciativas de machine learning e deep learning.
Fonte: (Towards Data Science – AI, ML & Deep Learning)