- Publicidade -
- Publicidade -
AI, ML & Deep Learning

CNN desafia ViT em avanços de deep learning para visão computacional

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

Pesquisadores da Meta desafiam o domínio dos Transformers no campo do deep learning ao demonstrar que a superioridade do Vision Transformer (ViT) pode ser fruto de configurações otimizadas e não apenas da arquitetura baseada em Transformer. Esse insight pavimenta o caminho para o renascimento das CNNs com o desenvolvimento da arquitetura ConvNeXt, que combina eficiência e alta acurácia.

Arquitetura de modelo

A arquitetura ConvNeXt, proposta por Liu et al. em 2022, é uma reimaginação do tradicional ResNet que incorpora configurações inspiradas no ViT e no Swin Transformer. O modelo substitui a estrutura padrão “wide → narrow → wide” dos blocos bottleneck do ResNet por uma versão invertida “narrow → wide → narrow”, baseando-se no feed-forward dos Transformers. Importantes mudanças incluem o uso de convolução depthwise com kernel 7×7, a substituição da função de ativação ReLU por GELU, e a adoção da normalização em camada (LayerNorm) em lugar da normalização por lote (BatchNorm).

“A estrutura ‘bottleneck invertida’ adotada do Transformer melhora a eficiência do modelo e mantém a capacidade de aprendizado.”
(“The inverted bottleneck structure adopted from Transformer improves model efficiency while maintaining learning capacity.”)

— Zhuang Liu, Pesquisador Principal, Meta

ConvNeXt também ajusta os tamanhos e proporções dos blocos de convolução para 1:1:3:1, inspirado pelo Swin-T, e implementa transições entre estágios via blocos específicos que aumentam canais e reduzem dimensões espaciais com downsampling separado e normalizações seletivas. Essa macro e micro arquitetura é uma evolução cuidadosa para extrair melhor desempenho computacional e representacional das CNNs.

Treinamento e otimização

Os ajustes finos da arquitetura ResNet, abrangendo macro design, ResNeXt (grupos em convoluções), bottleneck invertido e micro design com funções e normalizações, elevaram a acurácia da arquitetura original de 78.8% para 82.0% no conjunto ImageNet. O modelo superou o Swin Transformer-T (81.3%), mantendo menor custo computacional em FLOPS e demonstrando que hiperparâmetros podem ter impacto decisivo na performance.

“A melhoria significativa da ConvNeXt não decorre só da estrutura, mas principalmente da configuração ajustada. Isso destaca a importância do ajuste de hiperparâmetros nos modelos de deep learning.”
(“ConvNeXt’s significant improvement is not just from its structure but mainly from the tuned configuration, highlighting hyperparameter tuning’s importance in deep learning models.”)

— Ze Liu, Autor Principal, Microsoft Research

Ao usar convoluções depthwise com grupos correspondentes ao número de canais (depthwise convolution) e aumentar a largura das camadas como no Swin-T, o modelo mantém a eficiência computacional sem sacrificar a capacidade de aprendizado. A implementação cuidadosa da normalização e posicionamento das funções de ativação contribuem para a estabilidade durante o treinamento.

Resultados e métricas

ConvNeXt atingiu 82.0% de acurácia top-1 em ImageNet, superando seu principal concorrente Swin Transformer-T e mostrando que CNNs continuam competitivas em benchmarks atuais. A arquitetura também oferece GFLOPS reduzidos, indicando menor custo computacional para execução, e redução no tempo de treinamento graças às propriedades estruturais aprimoradas. O uso de LayerNorm antes e depois de operações chave aliada a downsampling dedicado equilibra eficiência e precisão.

A arquitetura demonstrou que transformações meticulosas na estrutura e principalmente nas configurações podem renovar modelos tradicionais, incentivando pesquisas adicionais em ajustes finos para aplicações específicas em vision tasks.

ConvNeXt abre espaço para aplicações práticas de machine learning em dispositivos com restrições computacionais graças à sua eficiência, além de influenciar trabalhos futuros na busca por arquiteturas híbridas e otimizações profundas que combinem o melhor de CNNs e Transformers.

Para desenvolvedores e pesquisadores, os principais próximos passos incluem a experimentação com variações de parâmetros para diferentes tarefas e a exploração da integração entre módulos Transformer e CNN dentro do mesmo pipeline.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!