BYOL-Explorar Exploración con Predicción Bootstrap
BYOL es un acrónimo de Bootstrap Your Own Latent. Se refiere a un enfoque de aprendizaje automático que combina la exploración y la predicción para mejorar el desempeño del modelo.

La exploración impulsada por la curiosidad es el proceso activo de buscar nueva información para mejorar la comprensión del agente sobre su entorno. Supongamos que el agente ha aprendido un modelo del mundo que puede predecir eventos futuros dados los eventos pasados. El agente impulsado por la curiosidad puede entonces utilizar la discrepancia de predicción del modelo del mundo como la recompensa intrínseca para dirigir su política de exploración hacia la búsqueda de nueva información. A continuación, el agente puede utilizar esta nueva información para mejorar el propio modelo del mundo, de modo que pueda realizar mejores predicciones. Este proceso iterativo permite al agente eventualmente explorar todas las novedades en el mundo y utilizar esta información para construir un modelo preciso del mundo.
Inspirado por los éxitos de bootstrap your own latent (BYOL) – que se ha aplicado en visión por computadora, aprendizaje de representaciones gráficas y aprendizaje de representaciones en RL – proponemos BYOL-Explore: un agente de IA impulsado por la curiosidad, conceptualmente simple pero general, para resolver tareas de exploración difíciles. BYOL-Explore aprende una representación del mundo prediciendo su propia representación futura. Luego, utiliza el error de predicción a nivel de representación como una recompensa intrínseca para entrenar una política impulsada por la curiosidad. Por lo tanto, BYOL-Explore aprende una representación del mundo, la dinámica del mundo y una política de exploración impulsada por la curiosidad, todo junto, simplemente optimizando el error de predicción a nivel de representación.

A pesar de la simplicidad de su diseño, cuando se aplica a la suite de tareas de exploración difíciles DM-HARD-8, que son desafiantes en 3-D, visualmente complejas y difíciles, BYOL-Explore supera a los métodos estándar de exploración impulsada por la curiosidad como Random Network Distillation (RND) e Intrinsic Curiosity Module (ICM), en términos de puntuación media normalizada por humanos (CHNS), medida en todas las tareas. Es notable que BYOL-Explore logró este rendimiento utilizando solo una red entrenada simultáneamente en todas las tareas, mientras que trabajos anteriores se limitaban al entorno de una sola tarea y solo podían lograr un progreso significativo en estas tareas cuando se les proporcionaban demostraciones de expertos humanos.
Como evidencia adicional de su generalidad, BYOL-Explore logra un rendimiento superhumano en los diez juegos de Atari de exploración más difíciles, mientras tiene un diseño más simple que otros agentes competitivos, como Agent57 y Go-Explore.
- Liderando un movimiento para fortalecer el aprendizaje automático e...
- Diseño de mecanismos centrado en el ser humano con IA democrática
- Trabajando juntos con YouTube

En adelante, podemos generalizar BYOL-Explore a entornos altamente estocásticos mediante el aprendizaje de un modelo de mundo probabilístico que podría utilizarse para generar trayectorias de los eventos futuros. Esto permitiría al agente modelar la posible estocasticidad del entorno, evitar trampas estocásticas y planificar la exploración.