
São Paulo — InkDesign News — A evolução de técnicas de machine learning continua a atrair a atenção, especialmente com métodos como o Grad-CAM, que busca explicar decisões de redes neurais convolucionais em aplicações de visão computacional.
Arquitetura de modelo
O Grad-CAM (Gradient-weighted Class Activation Mapping) é uma técnica de explicabilidade em inteligência artificial (XAI) que produz um mapa de calor, destacando as regiões de uma imagem mais relevantes para uma determinada previsão. De acordo com os desenvolvedores, ao aplicar o Grad-CAM a uma rede CNN treinada, é possível visualizar quais características da imagem influenciaram a saída do modelo.
A técnica fornece uma visão clara das decisões tomadas pelo modelo durante a avaliação.
(“The technique provides a clear view of the decisions made by the model during evaluation.”)— Autor Desconhecido, Autoridade em XAI
Treinamento e otimização
Implementar o Grad-CAM, em particular com a arquitetura VGG16, demanda a utilização de PyTorch Hooks. Esses hooks permitem a extração dinâmica de gradientes e ativação durante as passagens de feedforward e backpropagation. O modelo conta com 512 mapas de características na camada de convolução final, combinando informações semânticas e espaciais.
A implementação de hooks no PyTorch facilita a análise de como diferentes partes do modelo afetam a saída final.
(“The implementation of hooks in PyTorch facilitates the analysis of how different parts of the model affect the final output.”)— Autor Desconhecido, Pesquisador em Machine Learning
Resultados e métricas
Uma vez obtidos os gradientes e respostas das ativações, o Grad-CAM pondera a importância de cada mapa de ativação para a classe em questão. Isso é feito através de uma soma ponderada, resultando em um único mapa de 14×14, que é então aplicado uma função ReLU para eliminar valores negativos. O mapa final pode ser redimensionado para coincidir com a resolução da imagem original, permitindo sobreposições visuais interpretáveis.
O uso do Grad-CAM não apenas ilumina quais características visuais impactaram a decisão do modelo, como também facilita a identificação de potenciais falhas na compreensão do modelo. Essa informação é crucial para conjuntos de dados complexos como o ImageNet, onde a confusão entre classes é comum.
As aplicações práticas do Grad-CAM se estendem a sistemas de gestão de riscos e diagnóstico médico, onde a compreensão das decisões do modelo pode melhorar significativamente a confiabilidade e a segurança.
O próximo passo na pesquisa pode focar em melhorar a acurácia das previsões e reduzir a confusão entre classes similares, através de técnicas de ajuste e melhoria das bases de dados utilizadas.
Fonte: (Towards Data Science – AI, ML & Deep Learning)