
São Paulo — InkDesign News — O campo do machine learning tem avançado rapidamente, com novas abordagens emergindo para otimizar tarefas complexas como a segmentação de imagens. Recentemente, o modelo FastSAM foi desenvolvido para acelerar esse processo.
Arquitetura de modelo
O FastSAM utiliza uma arquitetura baseada em YOLOv8-seg, que é um detector de objetos com segmentação de instâncias. Essa arquitetura aproveita o método YOLACT para gerar máscaras de segmentação. Sua eficiência é notável, pois o FastSAM produz até 50 vezes mais rápido que o modelo anterior.
“A arquitetura do FastSAM é baseada em YOLOv8-seg — um detector de objetos equipado com a ramificação de segmentação de instâncias, que utiliza o método YOLACT.”
(“FastSAM architecture is based on YOLOv8-seg — an object detector equipped with the instance segmentation branch, which utilizes the YOLACT method.”)— Autores, Fast Segment Anything
O modelo é projetado para realizar segmentação em duas etapas: primeiro, produz máscaras para todas as instâncias presentes na imagem, seguido de um processo de seleção guiado por prompts, permitindo que o modelo filtre as regiões mais relevantes.
Treinamento e otimização
Os pesquisadores do FastSAM usaram o mesmo SA-1B dataset que o SAM, mas treinaram o detector CNN com apenas 2% dos dados, o que resultou em um desempenho comparável, mas com um uso de recursos significativamente menor.
“O SAM usa a arquitetura Vision Transformer (ViT), que é conhecida por suas altas exigências computacionais. Em contraste, o FastSAM realiza a segmentação usando CNNs, que são muito mais leves.”
(“What makes FastSAM faster than SAM? SAM uses the Vision Transformer (ViT) architecture, which is known for its heavy computational requirements. In contrast, FastSAM performs segmentation using CNNs, which are much lighter.”)— Autores, Fast Segment Anything
Essa abordagem mais leve contribui para uma aceleração considerável na inferência, aumentando a viabilidade para diversos projetos de deep learning.
Resultados e métricas
Os resultados do FastSAM foram impressionantes, não apenas em termos de velocidade, mas também pela qualidade das segmentações obtidas. As referências à alta precisão do modelo demonstram que é possível combinar eficiência computacional com desempenho efetivo.
O FastSAM suporta prompt de diferentes tipos, incluindo pontos, caixas e descrições textuais, oferecendo flexibilidade na seleção de áreas de interesse. Essa funcionalidade reflete uma grande evolução em relação aos métodos anteriores.
Por fim, a aplicação prática do FastSAM pode abrir novas possibilidades em áreas como visão computacional e automação, apresentando-se como uma solução viável para desafios complexos nas tarefas de segmentação de imagens.
Fonte: (Towards Data Science – AI, ML & Deep Learning)