Modelos de machine learning comparam dados zero-inflacionados

São Paulo — InkDesign News — O uso de machine learning na modelagem de dados com distribuições discretas, como a Zero Inflated Poisson, tem revelado novas possibilidades para análises em conjuntos de dados com excessos de zeros. Este artigo explora a aplicação dessa abordagem com dados de uso de bicicletas, onde a predominância de dias sem uso impacta a eficácia das regressões tradicionais.
Arquitetura de modelo
O estudo inicial empregou um modelo de Generalized Linear Model (GLM) com distribuição de Poisson, que apresentava limitações ao se deparar com dados inflacionados por zeros. Um dos problemas identificados é que o modelo de Poisson assume que a variável dependente segue uma distribuição de Poisson, o que não se sustentou na análise.
“Modelos de zero-inflacionados visam capturar tanto a alta probabilidade de zeros quanto as baixas probabilidades de outros eventos.”
(“Models designed for zero-inflated data aim to capture both the high probability of zeros and the relatively low probabilities of other events.”)— Autor desconhecido, Análise de Modelos
Por conta disso, foram explorados modelos que lidam melhor com essa inflamação, como os modelos de Hurdle e ZIP. A diferença essencial entre eles é que, enquanto os modelos de ZIP podem prever a ocorrência de zeros, os modelos Hurdle tratam zeros e valores positivos como componentes separados.
Treinamento e otimização
A implementação do modelo ZIP utilizou uma abordagem que separou os parâmetros que descrevem a probabilidade de zeros daqueles que modelam a contagem. Um ponto crucial foi a otimização por meio do método de Broyden-Fletcher-Goldfarb-Shanno, que se mostrou mais eficiente que métodos de descida de gradiente em termos de tempo de processamento.
“A implementação utilizada para otimizar a função de perda não é convexa; assim, soluções locais podem não ser globais.”
(“Unfortunately the loss function is not convex, a local minima is not guaranteed to be a global minima.”)— Autor desconhecido, Estudo de Algoritmos
A regularização foi integrada ao modelo para aprimorar a robustez, utilizando uma distribuição normal como prior nas variáveis. Essa abordagem se mostrou especialmente útil considerando a escassez de dados devido à inflação de zeros.
Resultados e métricas
A comparação entre os diferentes modelos, incluindo o modelo naïve, regressão linear e regressão de Poisson, revelou que os modelos de zero-inflacionados (ZIP e Hurdle) obtiveram desempenho significativamente melhor. Contudo, o tempo de treino foi mais alto, especialmente para o modelo ZIP.
“Modelos de zero-inflacionados superam o modelo naïve, a regressão linear e a regressão de Poisson tradicional.”
(“Zero-inflated models achieve better metrics than the naïve model, linear regression, and standard Poisson regression.”)— Autor desconhecido, Resultados de Análise
A performance do modelo ZIP se destacou quando testado em um conjunto de dados sintético que seguia a distribuição de ZIP. A precisão aumentou, corroborando a escolha do modelo em situações onde as características dos dados justificam seu uso.
Essas descobertas indicam que, antes de aplicar um modelo, é essencial realizar uma análise detalhada do conjunto de dados para determinar qual abordagem é mais adequada. O futuro da investigação pode se concentrar em otimizações adicionais e em explorar a aplicabilidade de modelos semelhantes em outros domínios.
Fonte: (Towards Data Science – AI, ML & Deep Learning)