
São Paulo — InkDesign News — Pesquisadores da Multitel têm se aventurado em um sofisticado projeto de classificação visual fina, utilizando técnicas avançadas de machine learning para desenvolver um classificador de carros que opere em tempo real em dispositivos com recursos limitados.
Arquitetura de modelo
A equipe inicialmente avaliou as abordagens existentes na literatura de classificação visual fina, que é um desafio direto devido às sutis variações visuais entre categorias. Segundo os pesquisadores, “um sistema que pudesse identificar modelos específicos de carros, não apenas ‘isto é um BMW’, mas qual modelo e ano, era fundamental” (“We needed a system that could identify specific car models, not just ‘this is a BMW,’ but which BMW model and year.”) — Nome, Cargo, Multitel.
O modelo escolhido foi o “ResNet-50”, que já demonstrou potencial em benchmarks anteriores. A metodologia de treinamento se concentrou em técnicas universais, sem depender de truques específicos de arquitetura.
Treinamento e otimização
Os pesquisadores montaram um pipeline de treinamento robusto que incluiu ajustes como o uso de “Nesterov Accelerated Gradient” como otimizador e práticas modernas como “data augmentation”. Um foco especial foi colocado na “TrivialAugment”, que mostrou resultados consistentes sem a necessidade de ajuste de parâmetros. “Trivial Augment funciona como uma substituição simples e eficaz” (“What makes TrivialAugment especially attractive is that it’s completely parameter-free, it doesn’t require search or tuning.”) — Nome, Cargo, Multitel.
Adicionalmente, exploraram avanços como a “cosine annealing” para a programação da taxa de aprendizado, resultando em melhorias significativas no desempenho do modelo.
Resultados e métricas
Após a implementação dessas técnicas, o modelo alcançou uma acurácia de 94,93% no conjunto de dados Stanford Cars, uma melhora considerável em relação à configuração inicial de 88,22%. “Demonstramos que uma nova abordagem de treinamento pode render resultados competitivos em classificação fina” (“Using just a standard ResNet-50, we were able to achieve strong performance on the Stanford Cars dataset.”) — Nome, Cargo, Multitel.
Os resultados também indicam que o modelo é promissor para tarefas do mundo real, embora os pesquisadores ressaltem que desafios como distribuições longas e ruídos do mundo real ainda precisam ser enfrentados.
As implicações práticas dessas descobertas são vastas, apontando para a potencial implementação de sistemas de reconhecimento de veículos em uma variedade de aplicativos que vão desde segurança até sistemas de informação pública. Com o alinhamento certo de ferramentas e técnicas, a próxima fase da pesquisa se concentrará em aprimorar a robustez do modelo frente a dados do mundo real.
Fonte: (Towards Data Science – AI, ML & Deep Learning)