
Um novo conjunto de dados 3D-texto, conhecido como 3D-GRAND, utiliza IA generativa para criar ambientes sintéticos anotados automaticamente, possibilitando que sistemas de machine learning compreendam a relação entre linguagem e espaços tridimensionais.
Contexto da pesquisa
A pesquisa, conduzida por acadêmicos da Universidade de Michigan, foi apresentada na Conferência de Visão Computacional e Reconhecimento de Padrões (CVPR) em Nashville, Tennessee, no dia 15 de junho. O objetivo é treinar robôs domésticos para entender comandos que conectam linguagem a estruturas espaciais.
Método proposto
O 3D-GRAND é um modelo que se destaca por possuir 40.087 cenas de lares e 6,2 milhões de descrições densamente ancoradas. Este modelo foi treinado em uma abordagem que combina modelos de visão para descrever características de objetos com modelos textuais que geram descrições com base em mapas estruturados de contextos espaciais.
O pipeline de IA começou gerando dados 3D sintéticos e utilizou um filtro de alucinação para garantir a precisão, resultando em um baixo índice de erro entre 5% e 8%, comparável a anotações profissionais humanas.
Resultados e impacto
O modelo treinado com o 3D-GRAND alcançou 38% de acurácia no “grounding”, superando o modelo anterior em 7,7%. Além disso, reduziu drasticamente as alucinações de 48% para apenas 6,67%.
“Modelos de linguagem multimodal grandes são em sua maioria treinados com texto e imagens 2D, mas vivemos em um mundo 3D. Para que um robô interaja conosco, é preciso que ele entenda termos espaciais e perspectivas.”
(“Large multimodal language models are mostly trained on text with 2D images, but we live in a 3D world. If we want a robot to interact with us, it must understand spatial terms and perspectives.”)— Joyce Chai, Professora, Universidade de Michigan
Esses resultados prometem um grande avanço na evolução dos robôs domésticos, oferecendo maior capacidade para executar tarefas complexas, como pegar objetos específicos em ambientes 3D. O próximo passo será testar o modelo em robôs reais para avaliar sua performance em situações práticas.
Fonte: (TechXplore – Machine Learning & AI)