
São Paulo — InkDesign News — O desafio da geração de dados sintéticos com técnicas de machine learning tem encontrado novas abordagens. Recentemente, um participante do Mostly AI Prize implementou uma solução inovadora, focando em pós-processamento para melhorar a qualidade dos dados gerados.
Arquitetura de modelo
A competição se dividiu em dois desafios: o FLAT e o SEQUENTIAL. O primeiro exigia a geração de um conjunto de 100.000 registros, enquanto o segundo focava na criação de 20.000 sequências de dados. O participante buscou inicialmente uma abordagem com múltiplos modelos de rede neural, mas optou por um único modelo gerador, o Mostly AI SDK, que teve resultados insatisfatórios inicialmente.
“Meu objetivo era criar um ensemble de vários modelos de ponta e combinar os dados gerados.
(“Initially, my goal was to create an ensemble of multiple different state-of-the-art models and combine their generated data.”)— Participante, Mostly AI Prize
Treinamento e otimização
A abordagem pivotou para o uso de um modelo gerador com a técnica de Oversampling, levando à criação de 2,5 milhões de amostras. O primeiro passo de pós-processamento envolveu o uso de Iterative Proportional Fitting (IPF) para ajustar as distribuições bivariadas dos dados sintéticos às do conjunto de dados original.
Essa configuração rendeu resultados significativos, aumentando a acurácia do modelo de 0,96 para 0,992. O método de trimming foi usado para remover amostras que não se apresentavam adequadas.
“O passo do IPF forneceu um ponto de partida de alta qualidade para a próxima fase.
(“The IPF step provided a high-quality starting point for the next phase.”)— Participante, Mostly AI Prize
Resultados e métricas
Com uma série de etapas de refinamento, o modelo se mostrou eficaz na validação entre as distribuições de dados. Para o desafio SEQUENTIAL, a lógica foi ajustada para considerar a coerência entre as sequências, garantindo que as distribuições estatísticas fossem compatíveis com a estrutura sequencial dos dados.
A competição mediu a qualidade dos dados gerados usando métricas como DCR (Distance to Closest Record) e NNDR (Nearest Neighbor Distance Ratio), assegurando que os modelos não apenas reproduzissem, mas gerassem novas amostras relevantes.
“Para esses desafios, um pipeline de pós-processamento voltado especificamente para a métrica de avaliação levou à solução vencedora, sem nenhum machine learning adicional.
(“For these challenges, a post-processing pipeline targeted specifically for the evaluation metric led me to the winning solution, without any additional ML.”)— Participante, Mostly AI Prize
O sucesso neste desafio abre portas para futuras pesquisas em geração de dados sintéticos, destacando a importância do pós-processamento e a adaptação das métricas de avaliação. A combinação de técnicas de machine learning e abordagens estatísticas pode conduzir a soluções mais robustas em diversos setores.
Fonte: (Towards Data Science – AI, ML & Deep Learning)