Modelo de machine learning supera gargalo de anotação em Computer Vision

São Paulo — InkDesign News — Novas técnicas de machine learning estão revolucionando o processo de rotulação de dados em visão computacional, com inovações que prometem reduzir significativamente o tempo e os custos envolvidos.
Arquitetura de modelo
A rotulação de dados tem sido um desafio persistente no domínio da visão computacional. Modelos tradicionais dependem fortemente de dados rotulados à mão, o que consome de 50% a 80% do orçamento de um projeto. Manualmente, um modelo não consegue identificar o que é um “caminhão” sem que alguém tenha rotulado milhares de imagens de caminhões.
“Um detector não consegue adivinhar como um ‘caminhão’ se parece até que alguém tenha marcado milhares de caminhões, quadro a quadro.”
(“A detector can’t guess what a ‘truck’ looks like until someone has boxed thousands of trucks, frame-by-frame.”)— Fonte anônima, Indústria de Visão Computacional
Treinamento e otimização
Modelos de zero-shot learning como o CLIP permitem que sistemas identifiquem novas categorias sem a necessidade de rotulagem prévia. Essa abordagem é uma mudança significativa em relação às metodologias tradicionais que necessitam de exemplos rotulados extensivos. No entanto, a detecção de objetos ainda apresenta complexidades, como a necessidade de localizar precisamente um objeto em uma imagem.
“A ideia básica é simples: se um modelo sabe o que significa ‘veículo de quatro rodas’ e ‘sedã’, ele deve ser capaz de identificar sedãs sem ter sido treinado em exemplos de sedãs.”
(“The basic idea is simple: if a model knows what ‘four-wheeled vehicle’ and ‘sedan’ mean, it should be able to identify sedans without ever being trained on sedan examples.”)— Fonte anônima, Pesquisador em AI
Resultados e métricas
A Voxel51 reportou que seu pipeline de Verified Auto Labeling registra uma concordância de aproximadamente 95% com rótulos de especialistas em benchmarks internos, como COCO e Pascal VOC. Com essa técnica, dados que antes levavam meses para serem rotulados agora podem ser processados em poucas horas, economizando em média 100 mil vezes em custo e tempo.
“O pipeline de Verified Auto Labeling permite que a rotulação de dezenas de milhares de imagens em um único dia transforme a anotação em uma tarefa que pode ser repetida em lotes.”
(“The Verified Auto Labeling pipeline allows labeling tens of thousands of images in a workday to shift annotation from a long-running, line-item expense to a repeatable batch job.”)— Voxel51, Relatório Interno
As técnicas de auto-rotulação, aliadas à revisão humana, oferecem um caminho viável para uma iteração mais rápida em projetos de visão computacional. Isso não só democratiza o desenvolvimento nesta área, mas também abre possibilidades para startups e empresas menores, permitindo que acessos a dados complexos sejam tratados de uma maneira mais eficiente, tanto em termos de custo quanto de tempo.
As implicações desses desenvolvimentos são vastas, com potencial para transformar práticas de rotulação de dados e acelerando a adoção de sistemas de visão computacional em diversas indústrias.
Fonte: (Towards Data Science – AI, ML & Deep Learning)