
São Paulo — InkDesign News — Uma nova abordagem em machine learning visa transformar a forma como a telemetria de rede é gerenciada, antecipando congestionamentos antes que eles ocorram, possibilitando um monitoramento mais eficaz e incisivo.
Arquitetura de modelo
O sistema é composto por quatro componentes principais: um Data Collector, um Forecasting Engine baseado em um modelo de Long Short-Term Memory (LSTM), um Telemetry Controller e uma Data Plane Programável. A coleta de dados se dá por meio de sFlow, que não compromete o desempenho da rede. O motor de previsão é essencial, pois utiliza o LSTM para aprender como os padrões de tráfego evoluem ao longo do tempo.
“O importante é detectar picos de tráfego incomuns que geralmente aparecem antes da congestão começar.”
(“The important thing is to spot unusual traffic spikes that typically show up before congestion starts.”)— Especialista em Machine Learning
Treinamento e otimização
O modelo LSTM foi treinado com dados sintéticos gerados em emulações de redes, utilizando iperf. Este método permite ao modelo prever tráfego anômalo a cada 30 segundos. A operação envolve um loop que coleta amostras de tráfego, atualiza uma janela deslizante e realiza previsões com base nas últimas condições de rede.
“Decidimos adotar o LSTM porque o tráfego de rede tende a ter estrutura.”
(“We went with an LSTM model because network traffic tends to have structure.”)— Pesquisador Líder
Resultados e métricas
Os resultados indicam que o sistema é eficaz em ativar a telemetria detalhada antes que os congestionamentos se tornem críticos. Esse método não apenas melhora a eficiência do monitoramento, mas também mantém a sobrecarga do sistema baixa. O algoritmo evita o monitoramento constante, focando apenas em áreas problemáticas previamente identificadas.
“A tentativa era encontrar um meio-termo, oferecendo visibilidade maior sem o custo da telemetria sempre ativa.”
(“The intent of the design was to find a middle ground, delivering deeper visibility than sampling or reactive systems.”)— Engenheiro de Sistemas
As implicações práticas deste avanço incluem o sofrimento significativo da rede de data centers de grande escala e serviços de baixa latência. Este tipo de monitoramento inteligente pode se tornar uma expectativa padrão no futuro, facilitando operações mais robustas.
Fonte: (Towards Data Science – AI, ML & Deep Learning)