- Publicidade -
- Publicidade -
AI, ML & Deep Learning

CNN desafia ViT em avanços de deep learning para visão computacional

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

O avanço em machine learning propiciou o desenvolvimento do ConvNeXt, uma arquitetura de rede neural convolucional moderna que desafia a supremacia dos transformers em visão computacional, combinando conceitos tradicionais de CNN com inovações inspiradas em transformers para aprimorar desempenho e eficiência.

Arquitetura de modelo

O ConvNeXt é fruto de um estudo realizado por pesquisadores da Meta, que investigaram se as melhorias vistas com Vision Transformer (ViT) derivam mais da arquitetura ou da configuração do modelo. Eles aplicaram parâmetros do ViT em ResNet, constatando que a configuração tinha papel fundamental. Assim, propuseram modificações no ResNet para criar o ConvNeXt, que mantém a base convolucional, mas incorpora elementos inspirados por transformers.

Dentre as mudanças, destaca-se a alteração do macro design, adaptando a proporção dos blocos para 1:1:3:1, a troca da primeira camada convolucional para um kernel 4×4 com stride 4 para simular patches não sobrepostos, e o emprego da depthwise convolution (grupo igual ao número de kernels). Adicionalmente, o bloco bottleneck tradicional foi invertido para uma estrutura “estreita → larga → estreita”, inspirada no feed-forward do transformer.

“O que os autores essencialmente fizeram foi tunar hiperparâmetros no modelo ResNet. Experimentaram cinco aspectos: design macro, ResNeXt, bottleneck invertido, kernel grande e design micro.”
(“What the authors essentially did in the research was hyperparameter tuning on the ResNet model. Generally speaking, there were five aspects they experimented with: macro design, ResNeXt, inverted bottleneck, large kernel, and micro design.”)

— Liu et al., Meta Research

Treinamento e otimização

O processo de otimização focou em detalhes como a substituição da ReLU por GELU, redução da quantidade de ativações GELU dentro do bloco, e a adoção da normalização em camadas (LayerNorm) em várias partes da rede, incluindo antes da camada de downsample. A introdução de downsampling separado, embora inicialmente reduzisse a acurácia, foi mitigada com a inclusão de camadas adicionais de normalização.

A facilidade de empilhar blocos iguais nas diversas etapas da rede, coordenada pela classe ConvNeXtBlock, e a existência de blocos de transição entre estágios, permitiram construir eficientemente redes com alto desempenho e complexidade computacional gerenciável, evidenciado pelo uso de GFLOPS balanceados com as melhorias em acurácia.

“O bloco ConvNeXt difere-se do bottleneck invertido original ao colocar a convolução depthwise no início, substituindo a atenção multi-cabeça (MSA) do transformer.”
(“The ConvNeXt block differs from the original inverted bottleneck by putting the depthwise convolution at the beginning, replacing the multihead self-attention (MSA) layer in transformers.”)

— Liu et al., Meta Research

Resultados e métricas

Os ajustes de configuração permitiram que o ConvNeXt-50 atingisse 82.0% de acurácia no ImageNet, superando tanto o ResNet original quanto o Swin Transformer T-base, com GFLOPS iguais ou inferiores. A versão maior, ConvNeXt-B, também superou o desempenho do Swin-B, demonstrando a robustez da abordagem de tuning combinada com design inspirado em transformers.

Além do desempenho notável em benchmarks, a adoção de técnicas como agrupamento de convolução, kernels maiores de 7×7 e normalizações específicas contribuiu para um modelo eficiente em termos de custo computacional e adaptado para aplicações práticas.

“Com esta configuração, os autores conseguiram ultrapassar o estado da arte Swin-T que alcançava 81.3% de acurácia.”
(“With this configuration, the authors obtained results surpassing the state-of-the-art Swin-T architecture which only achieved 81.3% accuracy.”)

— Liu et al., Meta Research

O ConvNeXt é um exemplo de como a reinvenção de CNNs, com inspiração em transformers, pode vencer paradigmas recentes da visão computacional. Pesquisas futuras podem explorar aplicações em tarefas além do reconhecimento de imagens, além da integração com diferentes técnicas de aprendizado profundo para maximizar eficiência e interpretabilidade.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!