
São Paulo — InkDesign News — A Meta apresentou recentemente o V-JEPA 2, um modelo de 1,2 bilhão de parâmetros, focado em melhorar a compreensão e a navegação de sistemas robóticos em ambientes desconhecidos, sem a necessidade de extensivo treinamento humano.
Tecnologia aplicada
O V-JEPA 2 é um modelo de mundo desenvolvido pela Meta, fundamentado na Arquitetura de Embedding Preditiva Conjunta (JEPA). Este sistema é treinado principalmente com vídeos, extrai padrões de interação física, e é projetado para ajudar robôs e agentes de IA a realizarem atividades complexas em contextos variados. O modelo opera em um ciclo de aprendizado em duas etapas, começando com uma fase auto-supervisionada em que aprende a partir de mais de um milhão de horas de vídeo e imagens.
Desenvolvimento e testes
Durante a segunda fase de aprendizado, o V-JEPA 2 aplica dados de controle robótico, permitindo uma avaliação de ações com base em resultados previstos. A Meta já testou o modelo em cenários controlados, onde o V-JEPA 2 se destacou em tarefas comuns de robótica, como pick-and-place, alcançando taxas de sucesso variando de 65% a 80% em ambientes previamente não vistos. O modelo gera ações candidatas e avalia suas viabilidades baseando-se em metas visuais sequenciais para tarefas mais complexas.
“Acreditamos que os modelos de mundo marcarão uma nova era para a robótica, permitindo que agentes de IA ajudem nas tarefas físicas sem depender de uma quantidade astronômica de dados de treinamento.”
(“We believe world models will usher a new era for robotics, enabling real-world AI agents to help with chores and physical tasks without needing astronomical amounts of robotic training data.”)— Yann LeCun, Cientista Chefe de IA, Meta
Impacto e aplicações
As implicações do V-JEPA 2 podem ser significativas para a indústria, oferecendo um retorno sobre investimento potencial ao reduzir a necessidade de grandes conjuntos de dados para o treinamento de robôs. A Meta revelou que o modelo exibiu habilidades promissoras para generalizar em novos objetos e configurações, sendo um potencial aliado em diversas indústrias. À medida que a tecnologia avança, ela poderá ser aplicada em locais como centros de distribuição, fábricas e até lares, otimizando tarefas cotidianas.
Ainda há uma lacuna perceptível entre o desempenho do modelo e o humano nesses benchmarks, apontando para a necessidade de modelos que operem em múltiplas escalas temporais e modalidades.”
(“there remains a noticeable gap between model and human performance on these benchmarks, pointing to the need for models that can operate across multiple timescales and modalities.”)— Meta AI
O futuro da robótica com a integração do V-JEPA 2 está promissor. A Meta também está lançando novos benchmarks, como IntPhys 2, MVPBench e CausalVQA, para avaliar o progresso da compreensão física de vídeos, incentivando a exploração ampliada de modelos de mundo em robótica e IA incorporada.
Fonte: (The Robot Report – Robótica & Automação)