BYOL-Explorar Exploración con Predicción Bootstrap

BYOL es un acrónimo de Bootstrap Your Own Latent. Se refiere a un enfoque de aprendizaje automático que combina la exploración y la predicción para mejorar el desempeño del modelo.

Vistas en segunda persona y desde arriba de un agente BYOL-Explore resolviendo el nivel Thow-Across de DM-HARD-8, mientras que el aprendizaje por refuerzo puro y otros métodos de exploración de línea base no logran progresar en Thow-Across.

La exploración impulsada por la curiosidad es el proceso activo de buscar nueva información para mejorar la comprensión del agente sobre su entorno. Supongamos que el agente ha aprendido un modelo del mundo que puede predecir eventos futuros dados los eventos pasados. El agente impulsado por la curiosidad puede entonces utilizar la discrepancia de predicción del modelo del mundo como la recompensa intrínseca para dirigir su política de exploración hacia la búsqueda de nueva información. A continuación, el agente puede utilizar esta nueva información para mejorar el propio modelo del mundo, de modo que pueda realizar mejores predicciones. Este proceso iterativo permite al agente eventualmente explorar todas las novedades en el mundo y utilizar esta información para construir un modelo preciso del mundo.

Inspirado por los éxitos de bootstrap your own latent (BYOL) – que se ha aplicado en visión por computadora, aprendizaje de representaciones gráficas y aprendizaje de representaciones en RL – proponemos BYOL-Explore: un agente de IA impulsado por la curiosidad, conceptualmente simple pero general, para resolver tareas de exploración difíciles. BYOL-Explore aprende una representación del mundo prediciendo su propia representación futura. Luego, utiliza el error de predicción a nivel de representación como una recompensa intrínseca para entrenar una política impulsada por la curiosidad. Por lo tanto, BYOL-Explore aprende una representación del mundo, la dinámica del mundo y una política de exploración impulsada por la curiosidad, todo junto, simplemente optimizando el error de predicción a nivel de representación.

Comparación entre BYOL-Explore, Random Network Distillation (RND), Intrinsic Curiosity Module (ICM) y aprendizaje por refuerzo puro (sin recompensa intrínseca), en términos de puntuación media normalizada por humanos (CHNS).

A pesar de la simplicidad de su diseño, cuando se aplica a la suite de tareas de exploración difíciles DM-HARD-8, que son desafiantes en 3-D, visualmente complejas y difíciles, BYOL-Explore supera a los métodos estándar de exploración impulsada por la curiosidad como Random Network Distillation (RND) e Intrinsic Curiosity Module (ICM), en términos de puntuación media normalizada por humanos (CHNS), medida en todas las tareas. Es notable que BYOL-Explore logró este rendimiento utilizando solo una red entrenada simultáneamente en todas las tareas, mientras que trabajos anteriores se limitaban al entorno de una sola tarea y solo podían lograr un progreso significativo en estas tareas cuando se les proporcionaban demostraciones de expertos humanos.

Como evidencia adicional de su generalidad, BYOL-Explore logra un rendimiento superhumano en los diez juegos de Atari de exploración más difíciles, mientras tiene un diseño más simple que otros agentes competitivos, como Agent57 y Go-Explore.

Comparación entre BYOL-Explore, Random Network Distillation (RND), Intrinsic Curiosity Module (ICM) y aprendizaje por refuerzo puro (sin recompensa intrínseca), en términos de puntuación media normalizada por humanos (CHNS).

En adelante, podemos generalizar BYOL-Explore a entornos altamente estocásticos mediante el aprendizaje de un modelo de mundo probabilístico que podría utilizarse para generar trayectorias de los eventos futuros. Esto permitiría al agente modelar la posible estocasticidad del entorno, evitar trampas estocásticas y planificar la exploración.