
São Paulo — InkDesign News — O avanço da inteligência artificial (IA) tem gradualmente moldado o cenário das tecnologias robóticas. Inovações recentes em modelos de aprendizado profundo, especialmente no uso de grandes modelos de linguagem (LLMs) e modelos de visão e linguagem (VLMs), estão criando novas possibilidades para robôs entendam e interajam com o ambiente físico.
Tecnologia e abordagem
Um desenvolvimento notável é o MolmoAct 7B, um novo modelo de código aberto criado pelo Allen Institute for AI (Ai2). Este modelo é classificado como um "Action Reasoning Model", permitindo que robôs raciocinem em um espaço tridimensional. Isso se diferencia dos modelos tradicionais de visão-linguagem-ação (VLA), que não consideram a espacialidade em suas operações. Através da sua capacidade de raciocínio 3D, o MolmoAct pode estimar distâncias entre objetos e prever sequências de "waypoints" para navegar em ambientes complexos.
“MolmoAct tem capacidades de raciocínio em espaço 3D em comparação com modelos tradicionais de visão-linguagem-ação, que não pensam ou raciocinam em espaço”
(“MolmoAct has reasoning in 3D space capabilities versus traditional vision-language-action (VLA) models.”)— Representante do Ai2
O modelo utiliza tokens de percepção espacial, que são extraídos por meio de um autoencoder variacional quantizado por vetor. Isso permite que MolmoAct entenda a geografia do ambiente, um componente fundamental para suas decisões.
Aplicação e desempenho
O MolmoAct demonstra uma taxa de sucesso de 72,1% em testes de benchmarking, um desempenho que supera outros modelos de líderes do setor, como Google e Nvidia. Essa eficiência sugere que o modelo pode ser adaptado para uma variedade de aplicações, especialmente em configurações domésticas onde as interações com o ambiente são mais desafiadoras.
A utilização de dados abertos para o treinamento do MolmoAct é uma estratégia que pode incentivar outras instituições acadêmicas e desenvolvedores individuais a explorar e aprimorar suas capacidades, facilitando o avanço na pesquisa. A adaptabilidade do modelo a diferentes plataformas robóticas, como braços mecânicos e robôs humanoides, também foi destacada como uma vantagem significativa.
Impacto e mercado
Embora o avanço em IA física tenha gerado interesse crescente, ainda existem limitações relacionadas ao contexto de uso e à complexidade do mundo real que precisam ser abordadas. O professor Alan Fern, da Oregon State University, observou que, embora melhorias tenham sido realizadas, as métricas atuais não conseguem capturar completamente as complexidades do mundo físico, sugerindo que mais trabalho é necessário antes que esses modelos possam ser amplamente aplicados.
“O foco deles em uma verdadeira compreensão da cena 3D, em vez de depender de modelos 2D, marca uma mudança notável na direção certa”
(“Their focus on truly 3D scene understanding, as opposed to relying on 2D models, marks a notable shift in the right direction.”)— Alan Fern, Professor, Oregon State University
Os próximos passos na pesquisa de IA física, conforme discutido na comunidade científica, poderão se concentrar na resolução das limitações atuais, aumentando o desempenho em cenários do mundo real. O investimento em modelos abertos e acessíveis também facilitará a experimentação e inovação por parte de pesquisadores e empresas emergentes.
Fonte: (VentureBeat – AI)