
São Paulo — InkDesign News —
Em um novo artigo, especialistas em machine learning discutem como melhorar a detecção de anomalias usando exemplos rotulados, abordando métodos práticos para aumentar a eficácia dos algoritmos tradicionais.
Arquitetura de modelo
A detecção de anomalias geralmente se baseia em algoritmos não supervisionados, que assumem que se está lidando com dados completamente não rotulados. No entanto, muitos profissionais conhecem a realidade complexa, onde existem pelo menos alguns exemplos rotulados disponíveis para auxiliar na definição do problema.
“A realidade é muitas vezes diferente.”
(“But if you’ve actually worked on these problems, you know the reality is often different.”)— Especialista em Análises, Universidade de São Paulo
Treinamento e otimização
Os autores propõem três estratégias que podem ser implementadas de imediato. A primeira, a ajuste de limiar, explora como os exemplos rotulados podem servir de base para a seleção de limiares adequados. Essa técnica ajuda a otimizar a detecção, evitando tanto a omissão de anomalias críticas quanto o excesso de alarmes falsos. O uso de métricas como precisão e recall, acessível com um conjunto menor de dados rotulados, permite quantificar o desempenho da detecção sob diferentes configurações.
“Você pode transformar a seleção do limiar de um palpite em um problema de otimização.”
(“With a handful of labeled anomalies, you can turn threshold selection from guesswork into an optimization problem with measurable outcomes.”)— Autor, Centro de Pesquisa em Inteligência Artificial
Resultados e métricas
A segunda estratégia, a seleção de modelo, utiliza exemplos rotulados para avaliar e escolher entre diferentes algoritmos de detecção. Isso permite comparar objetivamente o desempenho de modelos como o Isolation Forest e Autoencoders, utilizando a média de percentuais das anomalias conhecidas para determinar quais algoritmos se adequam melhor ao problema em questão.
“Você pode objetivamente comparar diferentes algoritmos.”
(“By using the average percentile ranking of your known anomalies as a performance metric, you can objectively compare different algorithms and configurations.”)— Pesquisador, Instituto Nacional de Pesquisa
A terceira abordagem, chamada ensemble supervisionado, permite que as anomalias rotuladas contribuam diretamente para o processo de detecção, extraindo assinaturas de anomalias e treinando um modelo de classificação. Esses métodos avançados demonstram um desempenho nítido em conjuntos de dados, como em um estudo de detecção de fraudes em cartões de crédito, onde o algoritmo XGBOD superou modelos não supervisionados, mesmo com uma quantidade limitada de dados rotulados.
Essa pesquisa destaca a importância de explorar e utilizar dados rotulados, indicando um caminho promissor no campo da detecção de anomalias em machine learning.
Fonte: (Towards Data Science – AI, ML & Deep Learning)