
São Paulo — InkDesign News — O uso de machine learning (ML) e deep learning na tomada de decisões nas áreas pública e privada se revela cada vez mais crucial, conforme evidenciado por um estudo recente que formaliza a avaliação de vazamentos de dados em análises com dados de painel.
Arquitetura de modelo
Os pesquisadores Augusto Cerqua, Marco Letta e Gabriele Pinto, no artigo “Sobre o (Mau) Uso de Machine Learning Com Dados de Painel” (2025), abordam um problema significativo na aplicação de algoritmos de ML. “No setor público, o ML é cada vez mais utilizado para problemas de política preditiva, onde os formuladores de políticas visam identificar unidades mais em risco de um resultado negativo e intervir proativamente” (“In the public sector, ML is increasingly used for so-called prediction policy problems: settings where policymakers aim to identify units most at risk of a negative outcome and intervene proactively”)— Nome, Cargo, Instituição.
O modelo examina a estrutura dos dados de painel, que combina dimensões temporais e cross-sectionais, destacando os riscos associados à prática padrão de dividir amostras aleatoriamente.
Treinamento e otimização
Os pesquisadores identificaram dois tipos principais de vazamento: o vazamento temporal e o vazamento cross-sectional. “Um modelo que parece altamente preciso durante a validação pode desmoronar quando implantado, levando a alocações de recursos mal direcionadas” (“In policy applications, a model that seems highly accurate during validation may collapse once deployed, leading to misallocated resources”)— Nome, Cargo, Instituição. Para resolver esses problemas, eles propõem diretrizes práticas para evitar essas armadilhas, como escolher a divisão da amostra com base na questão de pesquisa e adaptar a validação cruzada para dados de painel.
Resultados e métricas
A análise de um painel equilibrado de 3.058 condados dos EUA entre 2000 e 2019 mostra que “os resultados geralmente superestimam a precisão do modelo, especialmente em anos de mudanças de distribuição” (“the overestimation of model accuracy becomes significantly more pronounced during years marked by distribution shifts”)— Nome, Cargo, Instituição. O uso de divisões aleatórias gera taxas de precisão ilusórias, enquanto divisões baseadas no tempo proporcionam resultados mais realistas, embora com uma acurácia inferior em papel.
Os pesquisadores realizam centenas de modelos, testando diversas estratégias de divisão, uso de preditores contemporâneos e algoritmos como “Random Forest” e “Logit”. Isso demonstra como o vazamento pode inflar as métricas de desempenho, afetando decisões tanto no setor público quanto no privado.
Com a rápida adoção de ML, o estudo enfatiza a necessidade urgente de abordar essas questões para garantir que as previsões sejam confiáveis, de modo a ajudar os formuladores de políticas e as empresas em suas tomadas de decisões estratégicas.
Fonte: (Towards Data Science – AI, ML & Deep Learning)