Squeeze and Excitation melhora performance de CNN em deep learning

São Paulo — InkDesign News — O uso de deep learning em visão computacional tem avançado rapidamente, especialmente com a introdução de novas arquiteturas que melhoram a eficiência na extração de características em imagens.
Arquitetura de modelo
A recente pesquisa sobre a estrutura de rede Squeeze-and-Excitation Networks (SENet) propôs um aprimoramento significativo ao implementar módulos que realçam a capacidade de atenção do modelo. Essa arquitetura não é uma rede autônoma, mas sim um bloco que pode ser inserido em redes já existentes, como ResNet e Inception. O mecanismo de atenção do SENet opera de forma a atribuir pesos às diferentes camadas de características, proporcionando uma forma mais eficaz de mensurar a relevância de cada canal na previsão final de classes. Essa abordagem calcula a média global das ativações de cada canal e recalibra a contribuição de cada canal durante a inferência.
Treinamento e otimização
O módulo deve ser incluído após cada camada de convolução em arquiteturas simples, mas o processo é mais complexo em redes como Inception e ResNet, que possuem estruturas mais complexas. Um aspecto essencial do SENet é a redução da dimensionalidade das ativações através do uso de funções lineares, facilitando o aprendizado da correlação entre canais. O fator de redução foi otimizado e um valor de 16 mostrou-se ideal em experimentos realizados pelos autores. O treinamento do modelo SE-ResNeXt-50 foi realizado com foco na identificação de padrões de classe que melhoram o desempenho em tarefas de classificação de imagem.
“A aplicação de canais de atenção demonstrou melhorar a precisão em modelos de CNN e reduzir as taxas de erro.”
(“Applying attention channels has shown to improve accuracy in CNN models while reducing error rates.”)— Jie Hu, Pesquisador, SENet
Resultados e métricas
Testes mostraram que a incorporação do SENet em várias arquiteturas de rede resultou em melhorias tangíveis, com redução nos erros de classificação de top-1 e top-5. Em experimentos com o modelo SE-ResNeXt-50, a arquitetura apresentou um aumento no número total de parâmetros, o que é compensado pela melhoria significativa na performance. O impacto no tempo de treinamento foi avaliado, mas minimal, especialmente considerando as melhorias em precisão obtidas.
“Estamos encorajando a exploração do módulo SE em outras arquiteturas, como VGG e Inception, para avaliar seu impacto em diversos contextos de modelagem.”
(“We encourage exploration of the SE module in other architectures like VGG and Inception to assess its impact across various modeling contexts.”)— Muhammad Ardi Putra, Pesquisador
Os resultados obtidos com as SENets demonstram um grande potencial em aplicações práticas, como em diagnósticos médicos e sistemas de reconhecimento facial, onde a eficiência e a precisão são cruciais. A pesquisa continua em busca de melhorias na integração de módulos de atenção em arquiteturas mais complexas, visando expandir as capacidades dos modelos de machine learning.
Fonte: (Towards Data Science – AI, ML & Deep Learning)