¿Es la curiosidad todo lo que necesitas? Sobre la utilidad de los comportamientos emergentes a partir de la exploración curiosa

'La utilidad de los comportamientos emergentes a partir de la exploración curiosa'

Durante la exploración puramente curiosa, el brazo JACO descubre cómo recoger cubos, los mueve por el espacio de trabajo e incluso explora si se pueden equilibrar en sus bordes.

La exploración curiosa permite que OP3 camine erguido, se equilibre sobre un pie, se siente e incluso se atrape de forma segura cuando salta hacia atrás, todo sin un objetivo específico para optimizar.

La motivación intrínseca [1, 2] puede ser un concepto poderoso para dotar a un agente de un mecanismo para explorar continuamente su entorno en ausencia de información sobre la tarea. Una forma común de implementar la motivación intrínseca es a través del aprendizaje por curiosidad [3, 4]. Con este método, se entrena un modelo predictivo sobre la respuesta del entorno a las acciones de un agente junto con la política del agente. A este modelo también se le puede llamar modelo del mundo. Cuando se realiza una acción, el modelo del mundo hace una predicción sobre la próxima observación del agente. Luego, esta predicción se compara con la observación real realizada por el agente. Es crucial que la recompensa otorgada al agente por tomar esta acción se ajuste en función del error que cometió al predecir la próxima observación. De esta manera, se recompensa al agente por tomar acciones cuyos resultados aún no son fácilmente predecibles. Al mismo tiempo, el modelo del mundo se actualiza para predecir mejor el resultado de dicha acción.

Este mecanismo se ha aplicado con éxito en entornos de políticas activas, por ejemplo, para vencer juegos de computadora en 2D de manera no supervisada [4] o para entrenar una política general que se adapta fácilmente a tareas específicas [5]. Sin embargo, creemos que la verdadera fortaleza del aprendizaje por curiosidad radica en el comportamiento diverso que surge durante el proceso de exploración curiosa: a medida que el objetivo de curiosidad cambia, también lo hace el comportamiento resultante del agente, lo que descubre muchas políticas complejas que podrían ser utilizadas más adelante si se conservaran y no se sobrescribieran.

En este artículo, realizamos dos contribuciones para estudiar el aprendizaje por curiosidad y aprovechar su comportamiento emergente: en primer lugar, presentamos SelMo, una implementación fuera de la política de un método basado en la curiosidad y motivado por sí mismo para la exploración. Mostramos que utilizando SelMo, emerge un comportamiento significativo y diverso basado únicamente en la optimización del objetivo de curiosidad en dominios simulados de manipulación y locomoción. En segundo lugar, proponemos ampliar el enfoque en la aplicación del aprendizaje por curiosidad hacia la identificación y retención de comportamientos intermedios emergentes. Apoyamos esta conjetura con un experimento que recarga comportamientos autodescubiertos como habilidades auxiliares preentrenadas en un entorno de aprendizaje jerárquico por refuerzo.

<img alt="Flujo de control del método SelMo: El agente (actor) recopila trayectorias en el entorno utilizando su política actual y las almacena en el búfer de repetición del modelo a la izquierda. El modelo del mundo conectado selecciona muestras de manera uniforme de ese búfer y actualiza sus parámetros para la predicción hacia adelante utilizando descenso de gradiente estocástico (SGD). Las trayectorias muestreadas se asignan recompensas de curiosidad escaladas por el error de predicción respectivo bajo el modelo del mundo actual. Las trayectorias etiquetadas se pasan luego al búfer de repetición de política a la derecha. Se utiliza la optimización de máxima a posteriori (MPO) [6] para ajustar la función Q y la política en función de las muestras de repetición de la política. La política resultante y actualizada se sincroniza nuevamente con el actor."

Ejecutamos SelMo en dos dominios robóticos simulados de control continuo: en un brazo JACO de 6 grados de libertad con un gripper de tres dedos y en un robot humanoide OP3 de 20 grados de libertad. Las plataformas respectivas presentan entornos de aprendizaje desafiantes para la manipulación de objetos y la locomoción, respectivamente. Mientras se optimiza solo por la curiosidad, observamos que emerge un comportamiento complejo y comprensible para los humanos a lo largo de las ejecuciones de entrenamiento. Por ejemplo, JACO aprende a recoger y mover cubos sin ninguna supervisión o el OP3 aprende a equilibrarse sobre un solo pie o sentarse sin caerse.

Ejemplo de líneas de tiempo de entrenamiento para JACO y el OP3. Al optimizar el objetivo de la curiosidad, surgen comportamientos complejos y significativos tanto en la manipulación como en la locomoción. Los videos completos se pueden encontrar en la parte superior de esta página.

Sin embargo, los comportamientos impresionantes observados durante la exploración curiosa tienen una desventaja crucial: no son persistentes, ya que cambian con la función de recompensa de la curiosidad. A medida que el agente repite cierto comportamiento, por ejemplo, JACO levantando el cubo rojo, las recompensas de curiosidad acumuladas por esta política disminuyen. En consecuencia, esto conduce al aprendizaje de una política modificada que adquiere mayores recompensas de curiosidad nuevamente, por ejemplo, moviendo el cubo fuera del espacio de trabajo o incluso atendiendo al otro cubo. Pero este nuevo comportamiento sobrescribe el antiguo. Sin embargo, creemos que retener los comportamientos emergentes de la exploración curiosa dota al agente de un conjunto de habilidades valiosas para aprender nuevas tareas más rápidamente. Con el fin de investigar esta conjetura, configuramos un experimento para analizar la utilidad de las habilidades auto-descubiertas.

Tratamos las instantáneas muestreadas al azar de diferentes fases de la exploración curiosa como habilidades auxiliares en un marco de aprendizaje modular [7] y medimos qué tan rápido se puede aprender una nueva habilidad objetivo utilizando esas habilidades auxiliares. En el caso del brazo JACO, establecemos la tarea objetivo como “levantar el cubo rojo” y utilizamos cinco comportamientos autodescubiertos muestreados al azar como auxiliares. Comparamos el aprendizaje de esta tarea secundaria con una línea base SAC-X [8] que utiliza un currículo de funciones de recompensa para recompensar el alcance y el movimiento del cubo rojo, lo que finalmente facilita el aprendizaje del levantamiento también. Descubrimos que incluso esta configuración simple de reutilización de habilidades acelera el progreso del aprendizaje de la tarea secundaria de manera proporcional a un currículo de recompensa diseñado manualmente. Los resultados sugieren que la identificación y retención automática de comportamientos emergentes útiles de la exploración curiosa es una vía fructífera para futuras investigaciones en el aprendizaje por refuerzo no supervisado.