
São Paulo — InkDesign News —
Uma recente análise demonstra como o machine learning pode ser vulnerável a vazamentos de dados, colocando à prova a integridade de modelos preditivos. Especialistas buscam identificar falhas em códigos que podem resultar em modelos otimistas.
Arquitetura de modelo
A abordagem consiste em desenvolver um modelo para prever a probabilidade de acidentes aéreos, utilizando dados históricos de manutenção e voos. Os dados são coletados continuamente, abordando alertas, altitude e aceleração. A integridade das informações é essencial para evitar data leakage.
“Por definição, o vazamento de dados ocorre quando informações disponíveis após um evento estão indevidamente incluídas durante o treinamento.”
(“By definition, data leakage occurs when information available after an event is improperly included during training.”)— Dr. Marco Tallarico, Especialista em Machine Learning, Hexadecimal Airlines
Treinamento e otimização
A análise enfatiza que a separação de conjuntos de dados para treinamento e testes deve ser realizada antes de qualquer pré-processamento. Caso contrário, corre-se o risco de que análises feitas no conjunto completo levem a conclusões enviesadas, resultando em um modelo artificialmente otimista.
As técnicas de cros-validation são fundamentais para garantir que a avaliação do modelo seja justa e representativa. Ao aplicar transformações, o ideal é proceder primeiro com o conjunto de treinamento, para evitar que informações do conjunto de teste influenciem a modelagem.
“A análise e a construção de um modelo não devem considerar dados que só estar disponíveis após a previsão.”
(“Analysis and model building should not consider data that will only be available after prediction.”)— Ana Silva, Pesquisadora de Ciência de Dados, Universidade de São Paulo
Resultados e métricas
Modelos que ignoram o vazamento de dados podem apresentar métricas de precisão distorcidas. Ao estabelecer um pipeline robusto, as métricas podem se aproximar da realidade esperada. No entanto, falhas podem ser difíceis de detectar, com impactos negativos associados a previsões em cenários de aplicação real.
Próximos passos na pesquisa incluem a identificação de novas maneiras de otimizar a separação de dados e aprimorar algoritmos preditivos. Avaliações constantes e rigorosas são esperadas para garantir que os modelos sejam adequados para aplicação em contextos críticos.
Implementações práticas têm potencial para transformar setores como transporte aéreo e segurança, onde a acurácia é crucial e o planejamento deve sempre considerar vulnerabilidades a vazamentos de dados.
Fonte: (Towards Data Science – AI, ML & Deep Learning)