¿Cómo pueden los robots tomar mejores decisiones? Investigadores de MIT y Stanford introducen Diffusion-CCSP para un razonamiento y planificación robótica avanzada
Investigadores del MIT y Stanford desarrollan Diffusion-CCSP para mejorar la toma de decisiones de los robots.
La capacidad de elegir valores continuos, como agarres y colocación de objetos, que cumplan con complicadas restricciones geométricas y físicas, como estabilidad y ausencia de colisiones, es crucial para la planificación de la manipulación robótica. Tradicionalmente, en los métodos existentes, los muestreadores para cada tipo de restricción se han aprendido u optimizado por separado. Sin embargo, se necesita un solucionador de propósito general para problemas complejos que genere valores que satisfagan simultáneamente una amplia variedad de restricciones.
Debido a la escasez de datos, puede ser difícil construir o entrenar un solo modelo que satisfaga todos los requisitos potenciales. Como resultado, los planificadores de robots de propósito general deben poder reciclar y construir solucionadores para trabajos más grandes.
Como un marco unificado, la investigación reciente del MIT y la Universidad de Stanford sugiere el uso de grafos de restricción para expresar problemas de satisfacción de restricciones como nuevas combinaciones de tipos de restricciones aprendidas. Luego, pueden utilizar solucionadores de restricciones basados en modelos de difusión para identificar soluciones que cumplan conjuntamente las restricciones. Un ejemplo de variable de decisión es una postura de agarre, aunque una pose de colocación o la trayectoria de un robot también son ejemplos de nodos en un grafo de restricción.
Para resolver nuevos problemas, el solucionador de restricciones de difusión compositiva (Diffusion-CCSP) aprende un conjunto de modelos de difusión para diferentes restricciones. Luego, combina tutores para encontrar asignaciones satisfactorias a través de un proceso de difusión que genera diferentes muestras de la región factible. Específicamente, cada modelo de difusión se entrena para producir soluciones viables para una sola clase de restricción (como posiciones que evitan colisiones). En el momento de la inferencia, los investigadores podrían condicionar cualquier subconjunto de las variables y resolver el resto, ya que los modelos de difusión son modelos generativos del conjunto de soluciones. Cada modelo de difusión se entrena para minimizar una función de energía implícita, lo que hace que la tarea de satisfacer restricciones globales sea equivalente a minimizar la energía de las soluciones en su conjunto (aquí, solo la suma de las funciones de energía de las soluciones individuales). Estas dos adiciones proporcionan una gran flexibilidad para la personalización en el entrenamiento y la inferencia.
- Adept AI Labs hace de código abierto Persimmon-8B un potente modelo...
- ¿Cómo podemos medir la incertidumbre en los campos de radiación neu...
- Empezando con SQL en 5 pasos
De forma separada o conjunta, los pares de problemas y soluciones compositivas se pueden utilizar para entrenar modelos de difusión de componentes. Incluso cuando el grafo de restricción contiene más variables de las que se vieron durante el entrenamiento, Diffusion-CCSP puede generalizar a combinaciones novedosas de restricciones conocidas en el momento del rendimiento.
Los investigadores prueban Diffusion-CCSP en cuatro dominios difíciles, que incluyen empaquetado denso de triángulos en dos dimensiones, disposición de formas en dos dimensiones sujeta a restricciones cualitativas, apilamiento de formas en tres dimensiones sujeto a restricciones de estabilidad y empaquetado de elementos en tres dimensiones utilizando robots. Los hallazgos demuestran que este método supera a los baselines en velocidad de inferencia y generalización a nuevas combinaciones de restricciones y problemas más restrictivos.
El equipo destaca que todas las restricciones examinadas en este trabajo tienen una aridad fija. Tener en cuenta restricciones y aridad variable es una ruta interesante a seguir. También creen que sería útil si su modelo pudiera recibir instrucciones en lenguaje natural. Además, el método actual para crear etiquetas y soluciones para tareas está restringido, especialmente cuando se trata de limitaciones cualitativas como “poner la mesa”. Sugieren que los futuros desarrollos utilicen codificadores de formas más complejos y aprendan restricciones derivadas de datos del mundo real, como fotografías en línea, para ampliar el alcance de las aplicaciones actuales y futuras.