Conoce RPDiff Un modelo de difusión para el reacomodo de objetos de 6 grados de libertad en escenas en 3D

Conoce RPDiff, un modelo de difusión para reacomodar objetos 6DoF en escenas 3D.

Diseño y construcción de robótica para realizar tareas diarias es un campo emocionante y uno de los campos más desafiantes de la ingeniería informática. Un equipo de investigadores del MIT, NVIDIA y el Laboratorio de IA Improbable programaron con éxito un brazo robótico Frank Panda con un gripper de mordaza paralela 2F140 de Robotiq para reorganizar objetos en una escena y lograr una relación de colocación de objetos deseada. La existencia de muchas soluciones de reorganización geométricamente similares para una escena dada en el mundo real no es infrecuente, y los investigadores construyen una solución utilizando un procedimiento de entrenamiento iterativo de desenfoque de pose.

Los desafíos que se enfrentan en las escenas del mundo real son resolver la variación combinatoria presente en las apariencias y diseños geométricos, que ofrecen muchas ubicaciones y características geométricas para las interacciones entre objetos y escenas, como colocar un libro en un estante medio lleno o colgar una taza en el soporte para tazas. Puede haber muchas ubicaciones de escena para colocar un objeto y estas múltiples posibilidades dificultan la programación, el aprendizaje y la implementación. El sistema debe predecir salidas multimodales que abarquen toda la base de posibles reorganizaciones.

Para un conjunto de nubes de puntos de objetos finales de la escena, las configuraciones de objetos iniciales se pueden considerar perturbaciones a partir de las cuales se puede predecir la reorganización mediante el desenfoque de pose de la nube de puntos. Se puede generar una nube de puntos con ruido a partir de la nube de puntos final del objeto-escena y transferirla aleatoriamente a la configuración inicial mediante el entrenamiento del modelo utilizando redes neuronales. La multimodalidad no es efectiva para un conjunto de datos grande dado que el modelo intenta aprender una solución promedio que se ajusta mal a los datos. El equipo de investigación implementó procesos de ruido en varios pasos y modelos de difusión para superar esta dificultad. El modelo se entrena como un modelo de difusión y realiza desenfoque iterativo.

La generalización a diseños de escenas novedosos es necesaria después del desenfoque iterativo. El equipo de investigación propone codificar localmente la nube de puntos de la escena recortando una región cerca del objeto. Esto ayuda al modelo a concentrarse en el conjunto de datos del vecindario al ignorar los distractores no locales y distantes. El procedimiento de inferencia a partir de una suposición aleatoria puede llevar a una solución que está más lejos de una buena solución. Los investigadores resuelven esto considerando un tamaño de recorte inicialmente más grande y reduciéndolo en varias iteraciones para obtener un contexto de escena más local.

El equipo de investigación implementó RPDiff (Difusión de Poses Relacionales) para realizar una reorganización relacional de 6 grados de libertad condicionada a un objeto y una nube de puntos de la escena. Esto se generaliza a través de varias formas, poses y diseños de escenas con multimodalidad. El motivo que siguieron es desenfocar iterativamente la pose de 6 grados de libertad del objeto hasta que satisfaga la relación geométrica deseada con la nube de puntos de la escena.

El equipo de investigación utiliza RPDiff para realizar una reorganización relacional a través de la recogida y colocación de objetos y escenas del mundo real. El modelo tiene éxito en tareas como colocar un libro en una estantería parcialmente llena, apilar una lata en un estante abierto y colgar una taza en el estante con muchos ganchos. Su modelo puede producir distribuciones multimodales al superar la adaptación de conjuntos de datos multimodales, pero también tiene limitaciones al trabajar con representaciones pre-entrenadas de datos, ya que sus datos para la demostración se obtuvieron solo de políticas programadas en simulación. Su trabajo está relacionado con el trabajo de otros equipos sobre reorganización de objetos a partir de la percepción mediante la implementación de Neural Shape Mating (NSM).