
São Paulo — InkDesign News — A ShengShu Technology Co. lançou, ontem, seu novo modelo de AI física de múltiplas visões, chamado Vidar, que utiliza mundos simulados em vez de dados de treinamento físicos. O sistema promete revolucionar o treinamento de robôs, utilizando um conjunto limitado de dados físicos.
Tecnologia aplicada
O modelo Vidar, que significa “difusão em vídeo para raciocínio de ação”, combina a compreensão semântica e de vídeo da plataforma Vidu, permitindo que robôs tomem decisões em ambientes reais com um mínimo de dados físicos. Ao contrário das abordagens tradicionais que dependem de dados de interações físicas dispendiosos e difíceis de escalar, o Vidar utiliza dados reais em conjunto com cenários gerados generativamente para criar ambientes de treinamento virtual.
Desenvolvimento e testes
A abordagem de treinamento do Vidar é caracterizada por uma arquitetura de aprendizagem modular em duas etapas. A primeira fase envolve o uso de dados de vídeo em larga escala para treinar o modelo de compreensão perceptual. A segunda fase aplica um modelo agnóstico de tarefas para converter essa compreensão visual em comandos motores realizáveis para robôs. O sistema foi capaz de extrapolar uma série de ações robóticas a partir de apenas 20 minutos de dados de treinamento.
“Vidar oferece uma abordagem radicalmente diferente para o treinamento de modelos de AI encarnada.
(“Vidar offers a radically different approach to training embodied AI models.”)— ShengShu Technology
Impacto e aplicações
O impacto do Vidar abrange setores como assistência em casa, cuidado de idosos, manufatura inteligente e robótica médica. A versatilidade do modelo permite que ele se adapte rapidamente a novos ambientes e cenários multitarefa, tudo isso sem a dependência de grandes volumes de dados coletados fisicamente, propiciando uma economia significativa de tempo e recursos. As economias projetadas indicam que a coleta de dados pode ser reduzida de 1/80 a 1/1.200 da quantidade tradicional necessária para treinar modelos líderes da indústria.
“Vidar cria um caminho nativo em AI para o desenvolvimento robótico que é eficiente, escalável e economicamente viável.
(“Vidar creates an AI-native path for robotics development that is efficient, scalable, and cost-effective.”)— ShengShu Technology
Com a contínua expansão das fronteiras da AI multimodal, o Vidar se destaca como um avanço significativo, consolidando generalização, generatividade e encarnação em um único sistema. Os próximos passos incluem a validação em cenários do mundo real e a aplicação em novas áreas industriais, prometendo avançar ainda mais o estado da robótica.
Fonte: The Robot Report – Robótica & Automação