Redes neurais demonstram tarefas em primeira pessoa com smart glasses

São Paulo — InkDesign News —
A pesquisa recente sobre machine learning e inteligência artificial apresentou um sistema inovador, chamado EgoZero, que utiliza óculos inteligentes para coletar demonstrações de tarefas manuais realizadas por humanos. Este avanço pode significar um novo patamar na coleta de dados para o treinamento de robôs.
Contexto da pesquisa
Robôs estão gradualmente sendo integrados a diversas configurações do mundo real, como shoppings, aeroportos e hospitais. Para que eles atuem como assistentes diários confiáveis, precisam completar tarefas comuns, como limpar e cozinhar. O treinamento de algoritmos de machine learning para essas atividades frequentemente requer grandes volumes de dados anotados, o que pode ser desafiador.
Método proposto
O EgoZero, desenvolvido por pesquisadores da Universidade de Nova York e da UC Berkeley, destaca-se por coletar demonstrações em primeira pessoa utilizando os óculos Project Aria, desenvolvidos pela Meta. Segundo Lerrel Pinto, um dos autores principais, “acreditamos que a robótica de propósito geral é limitada pela falta de dados em escala de internet” (
“We believe that general-purpose robotics is bottlenecked by a lack of internet-scale data”
— Lerrel Pinto, Autor Principal, Universidade de Nova York
). O sistema permite a extração de representações 3D diretas a partir de vídeo, uma abordagem que não exige câmeras calibradas ou dispositivos adicionais.
Resultados e impacto
Os pesquisadores utilizaram o sistema para coletar vídeos de ações simples em um ambiente doméstico, como abrir a porta de um forno. Esses dados foram aplicados para treinar um algoritmo de machine learning, que foi então testado em um braço robótico Franka Panda. O robô conseguiu completar a maioria das tarefas testadas, mesmo com treinamento mínimo do algoritmo. “A maior contribuição do EgoZero é que ele pode transferir comportamentos humanos para políticas robóticas sem dados prévios do robô” (
“EgoZero’s biggest contribution is that it can transfer human behaviors into robot policies with zero robot data”
— Lerrel Pinto, Autor Principal, Universidade de Nova York
).
A pesquisa apresenta grandes perspectivas para a rápida coleta de conjuntos de dados, que podem facilitar o desenvolvimento e a implementação de robôs em mais lares e escritórios. Os próximos passos da equipe incluem a exploração de trade-offs entre representações 2D e 3D em uma escala maior.
Fonte: (TechXplore – Machine Learning & AI)