Observa y Aprende Pequeño Robot Este Enfoque de IA Enseña a los Robots la Manipulación Generalizable Utilizando Demostraciones en Video de Humanos
Enfoque de IA enseña robots manipulación generalizable usando demostraciones en video de humanos.
Los robots siempre han estado en el centro de atención en el panorama tecnológico. Siempre han encontrado un lugar en películas de ciencia ficción, programas infantiles, libros, novelas distópicas, etc. Hace no mucho tiempo, eran solo sueños de ciencia ficción, pero ahora están por todas partes, remodelando industrias y dándonos un vistazo al futuro. Desde fábricas hasta el espacio exterior, los robots están tomando protagonismo, mostrando su precisión y adaptabilidad como nunca antes.
El objetivo principal en el panorama de la robótica siempre ha sido el mismo: imitar la destreza humana. La búsqueda de perfeccionar las capacidades de manipulación para imitar a los humanos ha llevado a emocionantes avances. Se ha logrado un avance significativo a través de la integración de cámaras de mano-ojo, ya sea como complementos o sustitutos de las cámaras estáticas convencionales en tercera persona.
Aunque las cámaras de mano-ojo tienen un potencial inmenso, no garantizan resultados sin errores. Los modelos basados en visión a menudo tienen dificultades con las fluctuaciones del mundo real, como cambios de fondo, iluminación variable y cambios en la apariencia de los objetos, lo que lleva a la fragilidad.
Para abordar este desafío, ha surgido recientemente un nuevo conjunto de técnicas de generalización. En lugar de depender de datos de visión, se enseña a los robots ciertas políticas de acción utilizando diversos conjuntos de datos de demostraciones de robots. Esto funciona hasta cierto punto, pero hay un problema importante. Es caro, realmente caro. Recolectar ese tipo de datos en una configuración de robot real implica tareas que consumen mucho tiempo, como enseñanza cinestésica o teleoperación de robot a través de auriculares de realidad virtual o joysticks.
- Comienza a aprender IA con la serie de introducción a los datos de ...
- Por qué estamos cambiando a los puntos finales de inferencia de Hug...
- Snorkel AI x Hugging Face desbloquear modelos fundamentales para em...
¿Realmente necesitamos depender de este conjunto de datos costoso? Dado que el objetivo principal de los robots es imitar a los humanos, ¿por qué no podemos simplemente usar videos de demostraciones humanas? Estos videos de humanos realizando tareas ofrecen una solución más rentable debido a la agilidad de los humanos. Hacerlo permite capturar múltiples demos sin reiniciar constantemente el robot, depurar el hardware o reposicionarlo arduamente. Esto plantea la intrigante posibilidad de aprovechar las demostraciones de video humano para mejorar las habilidades de generalización de los manipuladores robóticos centrados en la visión, a gran escala.
Sin embargo, cerrar la brecha entre los reinos humano y robótico no es pan comido. Las diferencias en la apariencia entre humanos y robots introducen un cambio en la distribución que requiere una cuidadosa consideración. Conozcamos la nueva investigación, Dándole una mano a los robots, que cubre esta brecha.
Los métodos existentes, que emplean puntos de vista de cámaras en tercera persona, han abordado este desafío con estrategias de adaptación de dominio que involucran traducciones de imágenes, representaciones visuales invariables al dominio e incluso aprovechando información de puntos clave sobre estados humanos y de robots.

En contraste, Dándole una mano a los robots toma un enfoque sorprendentemente directo: enmascarar una porción consistente de cada imagen, ocultando efectivamente la mano humana o el efector final del robot. Este método sencillo evita la necesidad de técnicas elaboradas de adaptación de dominio, lo que permite que los robots aprendan políticas de manipulación directamente a partir de videos humanos. En consecuencia, resuelve problemas derivados de métodos explícitos de adaptación de dominio, como inconsistencias visuales evidentes derivadas de traducciones de imágenes de humano a robot.
El aspecto clave de Dándole una mano a los robots radica en la exploración del método. Un método que integra las amplias demostraciones de video de humanos con cámara de mano para mejorar tanto la generalización del entorno como la tarea. Logra un rendimiento asombroso en una variedad de tareas de manipulación robótica del mundo real, que incluyen alcanzar, agarrar, recoger y colocar, apilar cubos, limpiar platos, empacar juguetes, etc. El método propuesto mejora significativamente la generalización. Capacita a las políticas para adaptarse a entornos desconocidos y tareas novedosas que no se presenciaron durante las demostraciones de robots. Se evidencia un aumento promedio del 58% en las tasas de éxito absolutas en entornos y tareas desconocidos, en comparación con las políticas entrenadas únicamente en demostraciones de robots.