
Nos últimos anos, a pesquisa em machine learning e inteligência artificial (AI) tem evoluído rapidamente, especialmente no que diz respeito à estimativa de poses humanas em 3D. Recentemente, uma nova abordagem promissora foi apresentada, destacando-se pela sua capacidade de integrar dados de múltiplas câmaras de forma mais eficiente.
Contexto da pesquisa
Estimar com precisão a pose humana em 3D tem sido um desafio crescente no campo de AI. Os métodos anteriores, como OpenPose e Mediapipe, focavam na localização de articulações humanas como pontos-chaves em 2D. No entanto, a transição para a estimativa em 3D, que prevê as localizações (x, y, z) de articulações, ainda se mostrava complexa, mesmo com múltiplas câmaras disponíveis.
Método proposto
Um novo modelo, denominado MV-SSM (Multi-View State Space Modeling), foi apresentado por Aviral Chharia e colegas na Conferência IEEE/CVF sobre Visão Computacional e Padrões de Reconhecimento (CVPR) 2025. Este modelo utiliza blocos de espaço-estado projetivo (PSS) e um novo método de varredura bidirecional guiada por tokens de grade (GTBS) para aprender representações generalizadas das articulações. Assim, ele processa entradas de múltiplas imagens de forma end-to-end, que contrasta com abordagens anteriores que dependiam de etapas intermediárias, otimizando o desempenho na triangulação geométrica.
Resultados e impacto
Os experimentos demonstraram que o MV-SSM superou outros modelos líderes, apresentando uma melhora de +24% em configurações desafiadoras com três câmaras no benchmark CMU Panoptic e +38% em avaliações inter-datasets. O professor enfatiza que “a generalização do modelo é uma preocupação central, especialmente quando ele foi testado em diferentes arranjos de câmaras” (“the model’s generalization is a central concern, especially when tested in different camera arrangements”).
— Aviral Chharia, Pesquisador, Carnegie Mellon University
Com um futuro promissor, a pesquisa em poses humanas 3D ainda enfrenta desafios, como a suposição de que os parâmetros da câmara são conhecidos. Resolver essas limitações poderá ter um impacto significativo em diversas aplicações, desde a realidade aumentada até a análise de comportamento humano.
Fonte: (TechXplore – Machine Learning & AI)