- Publicidade -
- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Modelos de machine learning comparam dados zero-inflacionados

- Publicidade -
- Publicidade -

São Paulo — InkDesign News — O uso de machine learning na modelagem de dados com distribuições discretas, como a Zero Inflated Poisson, tem revelado novas possibilidades para análises em conjuntos de dados com excessos de zeros. Este artigo explora a aplicação dessa abordagem com dados de uso de bicicletas, onde a predominância de dias sem uso impacta a eficácia das regressões tradicionais.

Arquitetura de modelo

O estudo inicial empregou um modelo de Generalized Linear Model (GLM) com distribuição de Poisson, que apresentava limitações ao se deparar com dados inflacionados por zeros. Um dos problemas identificados é que o modelo de Poisson assume que a variável dependente segue uma distribuição de Poisson, o que não se sustentou na análise.

“Modelos de zero-inflacionados visam capturar tanto a alta probabilidade de zeros quanto as baixas probabilidades de outros eventos.”
(“Models designed for zero-inflated data aim to capture both the high probability of zeros and the relatively low probabilities of other events.”)

— Autor desconhecido, Análise de Modelos

Por conta disso, foram explorados modelos que lidam melhor com essa inflamação, como os modelos de Hurdle e ZIP. A diferença essencial entre eles é que, enquanto os modelos de ZIP podem prever a ocorrência de zeros, os modelos Hurdle tratam zeros e valores positivos como componentes separados.

Treinamento e otimização

A implementação do modelo ZIP utilizou uma abordagem que separou os parâmetros que descrevem a probabilidade de zeros daqueles que modelam a contagem. Um ponto crucial foi a otimização por meio do método de Broyden-Fletcher-Goldfarb-Shanno, que se mostrou mais eficiente que métodos de descida de gradiente em termos de tempo de processamento.

“A implementação utilizada para otimizar a função de perda não é convexa; assim, soluções locais podem não ser globais.”
(“Unfortunately the loss function is not convex, a local minima is not guaranteed to be a global minima.”)

— Autor desconhecido, Estudo de Algoritmos

A regularização foi integrada ao modelo para aprimorar a robustez, utilizando uma distribuição normal como prior nas variáveis. Essa abordagem se mostrou especialmente útil considerando a escassez de dados devido à inflação de zeros.

Resultados e métricas

A comparação entre os diferentes modelos, incluindo o modelo naïve, regressão linear e regressão de Poisson, revelou que os modelos de zero-inflacionados (ZIP e Hurdle) obtiveram desempenho significativamente melhor. Contudo, o tempo de treino foi mais alto, especialmente para o modelo ZIP.

“Modelos de zero-inflacionados superam o modelo naïve, a regressão linear e a regressão de Poisson tradicional.”
(“Zero-inflated models achieve better metrics than the naïve model, linear regression, and standard Poisson regression.”)

— Autor desconhecido, Resultados de Análise

A performance do modelo ZIP se destacou quando testado em um conjunto de dados sintético que seguia a distribuição de ZIP. A precisão aumentou, corroborando a escolha do modelo em situações onde as características dos dados justificam seu uso.

Essas descobertas indicam que, antes de aplicar um modelo, é essencial realizar uma análise detalhada do conjunto de dados para determinar qual abordagem é mais adequada. O futuro da investigação pode se concentrar em otimizações adicionais e em explorar a aplicabilidade de modelos semelhantes em outros domínios.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!