
Recentemente, um novo modelo de AI chamado H-CAST foi desenvolvido para melhorar a classificação hierárquica de imagens. Com foco em machine learning, este modelo busca alinhar classificadores de detalhes finos e grossos, superando limitações de abordagens anteriores.
Contexto da pesquisa
A pesquisa foi conduzida pela equipe da Universidade de Michigan e apresentada na International Conference on Learning Representations em Cingapura. O modelo H-CAST se baseia em um modelo anterior, o CAST, que era focado na classificação em um único nível. H-CAST é inovador pois implementa uma segmentação intra-imagem, abordando tanto classificadores finos quanto grossos em um mesmo contexto.
Método proposto
O modelo adota um enfoque hierárquico, permitindo a classificação em múltiplos níveis de detalhe. Ao contrário de modelos anteriores que consideravam as classificações grossas e finas como tarefas separadas, H-CAST treina as previsões em um espaço visual. Essa abordagem visa melhorar a acurácia ao vincular características globais com detalhes locais, como formato de bico ou cor das penas para aves.
“Se um modelo foca apenas na classificação fine-grained, ele desiste antes mesmo de começar em imagens que não apresentam informações suficientes para esse nível de detalhe.”
(“If a model only focuses on fine-grained classification, it gives up before it even starts on images that don’t have enough information to support that level of detail.”)— Stella Yu, Professora, Universidade de Michigan
Resultados e impacto
O H-CAST foi testado em quatro conjuntos de dados de benchmark, superando modelos concorrentes em precisão e consistência. Em um dos conjuntos, o H-CAST apresentou uma acurácia 6% superior à anterior do estado da arte e 11% em comparação com modelos de baseline. A análise de vizinhança de características também mostrou que o H-CAST recupera amostras semanticamente e visualmente consistentes entre níveis hierárquicos, enquanto modelos anteriores falhavam nesse aspecto.
“Nossa pesquisa pode ser aplicada a qualquer situação que requer um entendimento de imagens em múltiplos níveis.”
(“This work could potentially be applied to any situation that requires an understanding of multi-level images.”)— Seulki Park, Pesquisador Pós-Doutorando, Universidade de Michigan
As aplicações do H-CAST incluem monitoramento da fauna, onde a identificação de espécies pode se beneficiar de previsões mais grossas quando os dados são limitados, e em veículos autônomos, ajudando a interpretar entradas visuais imperfeitas. O modelo obtém insights valiosos sobre como os humanos raciocinam ao lidar com conceitos mais amplos em situações de incerteza.
Fonte: (TechXplore – Machine Learning & AI)