
São Paulo — InkDesign News — A detecção de URLs maliciosos é um desafio crescente em um mundo digital, e sistemas baseados em machine learning têm se mostrado promissores. Recentemente, um estudo avaliou o desempenho de um modelo baseado em deep learning para essa tarefa crítica.
Arquitetura de modelo
No desenvolvimento do sistema, foram utilizados modelos como Long Short-Term Memory (LSTM) e o modelo pré-treinado Bidirectional Encoder Representations from Transformers (BERT). O BERT, apresentado por Devlin et al. em 2019, é considerado uma evolução significativa para a classificação de texto, superando métodos anteriores em precisão. As URLs foram analisadas com um conjunto de dados que contém mais de 600.000 entradas, permitindo que o modelo capturasse padrões de phishing e URLs benignas.
Treinamento e otimização
O modelo LSTM alcançou uma taxa de acurácia de 91,36% e uma pontuação F1 de 0,90. Durante o processo de otimização, foram implementados ajustes nos parâmetros, como taxa de aprendizado e tamanho de lote. Um desafio encontrado na aplicação do BERT foi sua incapacidade de inicializar adequadamente devido à complexidade computacional, impactando o desempenho final.
A acurácia de validação do modelo LSTM permite detectar URLs maliciosos 9 em cada 10 tentativas.
(“The validation accuracy of the LSTM model allows for detecting malicious URLs 9 out of 10 times.”)— Autor do Estudo
Resultados e métricas
O uso de uma matriz de confusão para avaliar o desempenho demonstrou que o modelo LSTM não só é mais eficiente em termos de acurácia, mas também reduziu taxas de falsos positivos. O BERT apresentou uma acurácia de apenas 75,9%, resultado de problemas na configuração do hardware utilizado. Os resultados foram avaliados tendo em vista métricas como precisão, recall e a pontuação F1, com o modelo LSTM se destacando em todas elas.
Os sistemas de machine learning podem ser uma ferramenta valiosa para a modelagem de dados sequenciais e a identificação de padrões em URLs maliciosas.
(“Machine learning systems can be a valuable tool for modeling sequential data and identifying patterns in malicious URLs.”)— Autor do Estudo
O estudo ressalta que, apesar do sucesso dos métodos tradicionais, a necessidade de investimentos em novas arquiteturas, como o BERT, é crucial para aprimorar a detecção de ameaças cibernéticas.
Fonte: (Towards Data Science – AI, ML & Deep Learning)