Aprendizaje por refuerzo rápido a través de la composición de comportamientos

'Composición de comportamientos para un aprendizaje por refuerzo rápido'

La naturaleza compositiva de la inteligencia

Imagina si tuvieras que aprender a cortar, pelar y revolver todo de nuevo cada vez que quisieras aprender una nueva receta. En muchos sistemas de aprendizaje automático, los agentes a menudo tienen que aprender completamente desde cero cuando se enfrentan a nuevos desafíos. Sin embargo, está claro que las personas aprenden de manera más eficiente que esto: pueden combinar habilidades aprendidas previamente. De la misma manera que un diccionario finito de palabras se puede reensamblar en frases de significados casi infinitos, las personas reutilizan y combinan habilidades que ya poseen para enfrentar desafíos nuevos.

En la naturaleza, el aprendizaje surge cuando un animal explora e interactúa con su entorno con el fin de obtener comida y otras recompensas. Este es el paradigma capturado por el aprendizaje por refuerzo (RL, por sus siglas en inglés): las interacciones con el entorno refuerzan o inhiben patrones de comportamiento particulares dependiendo de la recompensa (o penalización) resultante. Recientemente, la combinación de RL con el aprendizaje profundo ha dado lugar a resultados impresionantes, como agentes que pueden aprender a jugar juegos de mesa como Go y ajedrez, el espectro completo de juegos de Atari, así como juegos de video más modernos y difíciles como Dota y StarCraft II.

Una limitación importante en RL es que los métodos actuales requieren vastas cantidades de experiencia en el entrenamiento. Por ejemplo, para aprender a jugar un solo juego de Atari, un agente de RL consume típicamente una cantidad de datos correspondiente a varias semanas de juego ininterrumpido. Un estudio liderado por investigadores del MIT y Harvard indicó que, en algunos casos, los humanos pueden alcanzar el mismo nivel de rendimiento en solo quince minutos de juego.

Una posible razón de esta discrepancia es que, a diferencia de los humanos, los agentes de RL generalmente aprenden una nueva tarea desde cero. Nos gustaría que nuestros agentes aprovechen el conocimiento adquirido en tareas anteriores para aprender una nueva tarea más rápidamente, de la misma manera que un cocinero tendrá más facilidad para aprender una nueva receta que alguien que nunca ha preparado un plato antes. En un artículo publicado recientemente en las Actas de la Academia Nacional de Ciencias (PNAS, por sus siglas en inglés), describimos un marco destinado a dotar a nuestros agentes de RL con esta capacidad.

Dos formas de representar el mundo

Para ilustrar nuestro enfoque, exploraremos un ejemplo de una actividad que es (o solía ser) una rutina diaria: el viaje al trabajo. Imagina el siguiente escenario: un agente debe viajar todos los días desde su casa hasta su oficina, y siempre toma un café en el camino. Hay dos cafeterías entre la casa del agente y la oficina: una tiene un café excelente pero está en un camino más largo, y la otra tiene un café decente pero un viaje más corto (Figura 1). Dependiendo de cuánto valore el agente la calidad del café versus cuánta prisa tenga en un día determinado, puede elegir una de las dos rutas (los senderos amarillo y azul en el mapa que se muestra en la Figura 1).

Figura 1: Un mapa de un viaje ilustrativo al trabajo.

Tradicionalmente, los algoritmos de RL se dividen en dos categorías amplias: agentes basados en modelos y agentes sin modelo (Figuras 2 y 3). Un agente basado en modelos (Figura 2) construye una representación de muchos aspectos del entorno. Un agente de este tipo podría saber cómo están conectadas las diferentes ubicaciones, la calidad del café en cada cafetería y cualquier otra cosa que se considere relevante. Un agente sin modelo (Figura 3) tiene una representación mucho más compacta de su entorno. Por ejemplo, un agente sin modelo basado en el valor tendría un solo número asociado con cada posible ruta que sale de su casa; este es el “valor” esperado de cada ruta, reflejando una ponderación específica de la calidad del café versus la longitud del viaje. Tomemos como ejemplo el sendero azul que se muestra en la Figura 1. Supongamos que este sendero tiene una longitud de 4 y el café que el agente obtiene al seguirlo tiene una calificación de 3 estrellas. Si al agente le importa la distancia del viaje un 50% más de lo que le importa la calidad del café, el valor de este sendero será (-1.5 x 4) + (1 x 3) = -3 (usamos un peso negativo asociado a la distancia para indicar que los viajes más largos son indeseables).

Figura 2: Cómo un agente basado en modelos representa el mundo. Solo se capturan detalles relevantes para el agente en la representación (comparar con la Figura 1). Sin embargo, la representación es considerablemente más compleja que la utilizada por un agente sin modelo (comparar con la Figura 3).

Podemos interpretar el peso relativo de la calidad del café versus la distancia del trayecto como las preferencias del agente. Para cualquier conjunto fijo de preferencias, un agente sin modelo y un agente basado en modelos elegirían la misma ruta. Entonces, ¿por qué tener una representación más complicada del mundo, como la utilizada por un agente basado en modelos, si el resultado final es el mismo? ¿Por qué aprender tanto sobre el entorno si el agente termina tomando el mismo café?

Las preferencias pueden cambiar de un día para otro: un agente puede tener en cuenta cuánta hambre tiene o si llega tarde a una reunión al planificar su ruta hacia la oficina. Una forma para que un agente sin modelo maneje esto es aprender la mejor ruta asociada con cada posible conjunto de preferencias. Esto no es ideal porque aprender cada combinación posible de preferencias llevará mucho tiempo. Además, es imposible aprender una ruta asociada con cada posible conjunto de preferencias si hay infinitas.

En contraste, un agente basado en modelos puede adaptarse a cualquier conjunto de preferencias sin necesidad de aprendizaje, “imaginando” todas las rutas posibles y preguntando qué tan bien cumplirían con su mentalidad actual. Sin embargo, este enfoque también tiene desventajas. En primer lugar, generar y evaluar “mentalmente” todas las trayectorias posibles puede requerir muchos recursos computacionales. En segundo lugar, construir un modelo del mundo completo puede ser muy difícil en entornos complejos.

Los agentes sin modelo aprenden más rápido pero son frágiles ante el cambio. Los agentes basados en modelos son flexibles pero pueden ser lentos en aprender. ¿Existe una solución intermedia?

Características sucesoras: un punto intermedio

Un estudio reciente en ciencias del comportamiento y neurociencia sugiere que en ciertas situaciones, los humanos y los animales toman decisiones basadas en un modelo algorítmico que es un compromiso entre los enfoques sin modelo y basados en modelos (aquí y aquí). La hipótesis es que, al igual que los agentes sin modelo, los humanos también calculan el valor de las estrategias alternativas en forma de un número. Pero, en lugar de resumir una sola cantidad, los humanos resumen muchas cantidades diferentes que describen el mundo que les rodea, como lo hacen los agentes basados en modelos.

Es posible dotar a un agente de RL con la misma capacidad. En nuestro ejemplo, dicho agente tendría, para cada ruta, un número que representa la calidad esperada del café y un número que representa la distancia a la oficina. También podría tener números asociados con cosas que el agente no está intentando optimizar pero que están disponibles para futuras referencias (por ejemplo, la calidad de la comida en cada cafetería). Los aspectos del mundo de los que el agente se preocupa y hace un seguimiento a veces se denominan “características”. Debido a esto, esta representación del mundo se llama características sucesoras (previamente denominada “representación sucesora” en su encarnación original).

Las características sucesoras se pueden considerar como un punto intermedio entre las representaciones sin modelo y basadas en modelos. Al igual que estas últimas, las características sucesoras resumen muchas cantidades diferentes, capturando el mundo más allá de un solo valor. Sin embargo, al igual que en la representación sin modelo, las cantidades que el agente hace un seguimiento son estadísticas simples que resumen las características que le interesan. De esta manera, las características sucesoras son como una versión “desempaquetada” del agente sin modelo. La Figura 4 ilustra cómo un agente que utiliza características sucesoras vería nuestro entorno de ejemplo.

Usando características sucesoras: componiendo planes novedosos a partir de un diccionario de políticas

Las características sucesoras son una representación útil porque permiten evaluar una ruta bajo diferentes conjuntos de preferencias. Volvamos a utilizar la ruta azul en la Figura 1 como ejemplo. Usando características sucesoras, el agente tendría asociados tres números con este camino: su longitud (4), la calidad del café (3) y la calidad de la comida (5). Si el agente ya desayunó, es probable que no le importe mucho la comida; además, si es tarde, es posible que le importe más la distancia del trayecto que la calidad del café, digamos, un 50% más, como antes. En este escenario, el valor del camino azul sería (-1.5 x 4) + (1 x 3) + (0 x 5) = -3, como en el ejemplo dado anteriormente. Pero ahora, en un día en que el agente tiene hambre y, por lo tanto, se preocupa por la comida tanto como por el café, puede actualizar inmediatamente el valor de esta ruta a (-1.5 x 4) + (1 x 3) + (1 x 5) = 2. Usando la misma estrategia, el agente puede evaluar cualquier ruta según cualquier conjunto de preferencias.

En nuestro ejemplo, el agente está eligiendo entre rutas. En general, el agente buscará una política: una prescripción de qué hacer en cada situación posible. Las políticas y las rutas están estrechamente relacionadas: en nuestro ejemplo, una política que elige tomar el camino a la cafetería A desde casa y luego el camino a la oficina desde la cafetería A recorrería la ruta azul. Entonces, en este caso, podemos hablar de políticas y rutas de manera intercambiable (esto no sería cierto si hubiera cierta aleatoriedad en el entorno, pero dejaremos este detalle de lado). Discutimos cómo las características sucesoras permiten evaluar una ruta (o política) bajo diferentes conjuntos de preferencias. A este proceso lo llamamos evaluación de políticas generalizada, o GPE.

¿Por qué es útil la GPE? Supongamos que el agente tiene un diccionario de políticas (por ejemplo, rutas conocidas a la oficina). Dado un conjunto de preferencias, el agente puede usar GPE para evaluar de inmediato qué tan bien funcionaría cada política en el diccionario bajo esas preferencias. Ahora la parte realmente interesante: basado en esta evaluación rápida de políticas conocidas, el agente puede crear políticas completamente nuevas sobre la marcha. La forma en que lo hace es simple: cada vez que el agente tenga que tomar una decisión, hace la siguiente pregunta: “si tuviera que tomar esta decisión y luego seguir la política con el máximo valor a partir de entonces, ¿qué decisión llevaría al valor máximo en general?” Sorprendentemente, si el agente elige la decisión que conduce al valor máximo en general en cada situación, termina con una política que a menudo es mejor que las políticas individuales utilizadas para crearla.

Este proceso de “unir” un conjunto de políticas para crear una política mejor se llama mejora de políticas generalizada, o GPI. La Figura 5 ilustra cómo funciona GPI utilizando nuestro ejemplo en curso.

<img alt="Figura 5: Cómo funciona GPI. En este ejemplo, el agente se preocupa un 50% más por la distancia del trayecto que por la calidad del café y la comida. Lo mejor que se puede hacer en este caso es visitar la cafetería A, luego visitar la cafetería B y, finalmente, ir a la oficina. El agente conoce tres políticas asociadas con los caminos azul, amarillo y naranja (ver Figura 1). Cada política recorre un camino diferente, pero ninguno de ellos coincide con la ruta deseada. Usando GPE, el agente evalúa las tres políticas según su conjunto actual de preferencias (es decir, los pesos -1.5, 1 y 1 asociados con la distancia, el café y la comida, respectivamente). Basándose en esta evaluación, el agente hace la siguiente pregunta en casa: "si siguiera una de las tres políticas hasta llegar a la oficina, ¿cuál sería la mejor?" Dado que la respuesta a esta pregunta es la política azul, el agente la sigue. Sin embargo, en lugar de comprometerse completamente con la política azul, cuando el agente llega a la cafetería A, hace la misma pregunta nuevamente. Ahora, en lugar del camino azul, el agente sigue el camino naranja. Repitiendo este proceso, el agente termina siguiendo el mejor camino hacia la oficina para satisfacer sus preferencias, aunque ninguna de sus políticas conocidas lo haría por sí sola.

El rendimiento de una política creada a través de GPI dependerá de cuántas políticas conozca el agente. Por ejemplo, en nuestro ejemplo práctico, siempre que el agente conozca las rutas azul y amarilla, encontrará la mejor ruta para cualquier preferencia sobre la calidad del café y la duración del viaje. Pero la política GPI no siempre encontrará la mejor ruta. En la Figura 1, el agente nunca visitaría la cafetería A y luego la cafetería B si no conociera previamente una política que las conectara de esta manera (como la ruta naranja en la figura).

Un ejemplo simple para mostrar GPE y GPI en acción

Para ilustrar los beneficios de GPE y GPI, ahora presentamos un vistazo a uno de los experimentos de nuestra publicación reciente (consultar el artículo completo para obtener detalles completos). El experimento utiliza un entorno simple que representa de manera abstracta el tipo de problema en el que nuestro enfoque puede ser útil. Como se muestra en la Figura 6, el entorno es una cuadrícula de 10 x 10 con 10 objetos distribuidos en ella. El agente solo recibe una recompensa distinta de cero si recoge un objeto, en cuyo caso aparece otro objeto en una ubicación aleatoria. La recompensa asociada a un objeto depende de su tipo. Los tipos de objetos representan conceptos concretos o abstractos; para conectar con nuestro ejemplo práctico, consideraremos que cada objeto es “café” o “comida” (estas son las características que el agente registra).

Figura 6: Entorno simple para ilustrar la utilidad de GPE y GPI. El agente se mueve utilizando las cuatro acciones direccionales (“arriba”, “abajo”, “izquierda” y “derecha”) y recibe una recompensa distinta de cero cuando recoge un objeto. La recompensa asociada a un objeto está definida por su tipo (“café” o “comida”).

Claramente, la mejor estrategia para el agente depende de sus preferencias actuales sobre café o comida. Por ejemplo, en la Figura 6, un agente que solo se preocupa por el café puede seguir la ruta en rojo, mientras que un agente enfocado exclusivamente en la comida seguiría la ruta azul. También podemos imaginar situaciones intermedias en las que el agente quiera café y comida con diferentes ponderaciones, incluido el caso en el que el agente quiera evitar uno de ellos. Por ejemplo, si el agente quiere café pero realmente no quiere comida, la ruta gris en la Figura 6 puede ser una mejor alternativa a la roja.

El desafío en este problema es adaptarse rápidamente a un nuevo conjunto de preferencias (o una “tarea”). En nuestros experimentos mostramos cómo se puede hacer esto utilizando GPE y GPI. Nuestro agente aprendió dos políticas: una que busca café y otra que busca comida. Luego probamos qué tan bien se desempeñó la política calculada por GPE y GPI en tareas asociadas con diferentes preferencias. En la figura 7 comparamos nuestro método con un agente sin modelo en la tarea cuyo objetivo es buscar café evitando la comida. Observa cómo el agente que utiliza GPE y GPI sintetiza instantáneamente una política razonable, aunque nunca aprendió cómo evitar deliberadamente los objetos. Por supuesto, la política calculada por GPE y GPI se puede utilizar como una solución inicial que luego se puede refinar mediante el aprendizaje, lo que significa que igualaría el rendimiento final de un agente sin modelo pero probablemente llegaría allí más rápido.

Figura 7: Un agente GPE-GPI aprende a desempeñarse bien con muchos menos datos de entrenamiento que un método sin modelo (Q-learning). Aquí la tarea consiste en buscar café evitando la comida. El agente GPE-GPI aprendió dos políticas, una que busca café y otra que busca comida. Logra evitar la comida aunque nunca se le haya entrenado para evitar un objeto. Las regiones sombreadas representan una desviación estándar en 100 ejecuciones.

La Figura 7 muestra el rendimiento de GPE y GPI en una tarea específica. También hemos probado el mismo agente en muchas otras tareas. La Figura 8 muestra qué sucede con el rendimiento de los agentes sin modelo y GPE-GPI cuando cambiamos la importancia relativa del café y la comida. Ten en cuenta que, mientras que el agente sin modelo tiene que aprender cada tarea por separado, desde cero, el agente GPE-GPI solo aprende dos políticas y luego se adapta rápidamente a todas las tareas.

Figura 8: Rendimiento del agente GPE-GPI en diferentes tareas. Cada barra corresponde a una tarea inducida por un conjunto de preferencias sobre café y comida. Las gradaciones de color debajo del gráfico representan los conjuntos de preferencias: el azul indica peso positivo, el blanco indica peso cero y el rojo indica peso negativo. Por ejemplo, en los extremos del gráfico tenemos tareas en las que el objetivo es evitar un tipo de objeto mientras se ignora el otro, mientras que en el centro la tarea es buscar ambos tipos de objetos con igual énfasis. Las barras de error representan una desviación estándar en 10 ejecuciones.

Los experimentos anteriores utilizaron un entorno simple diseñado para exhibir las propiedades necesarias de GPE y GPI sin factores de confusión innecesarios. Pero GPE y GPI también se han aplicado a gran escala. Por ejemplo, en trabajos anteriores (aquí y aquí) mostramos cómo la misma estrategia también funciona cuando reemplazamos un mundo en cuadrícula con un entorno tridimensional en el que el agente recibe observaciones desde una perspectiva en primera persona (ver videos ilustrativos aquí y aquí). También hemos utilizado GPE y GPI para permitir que un robot simulado de cuatro patas navegue en cualquier dirección después de haber aprendido a hacerlo solo en tres direcciones (ver documento aquí y video aquí).

GPE y GPI en contexto

El trabajo en GPE y GPI se encuentra en la intersección de dos ramas separadas de investigación relacionadas con estas operaciones individualmente. La primera, relacionada con GPE, es el trabajo sobre la representación sucesora, iniciado con el influyente artículo de Dayan de 1993. El artículo de Dayan inauguró una línea de trabajo en neurociencia que todavía está muy activa en la actualidad (ver lecturas adicionales: “La representación sucesora en neurociencia”). Recientemente, la representación sucesora volvió a surgir en el contexto del RL (enlaces aquí y aquí), donde también se le conoce como “características sucesoras”, y se convirtió en una línea de investigación activa allí también (ver lecturas adicionales: “GPE, características sucesoras y enfoques relacionados”). Las características sucesoras también están estrechamente relacionadas con las funciones de valor general, un concepto basado en la hipótesis de Sutton et al. de que el conocimiento relevante se puede expresar en forma de muchas predicciones sobre el mundo (también se discute aquí). La definición de características sucesoras ha surgido de manera independiente en otros contextos dentro del RL, y también está relacionada con enfoques más recientes normalmente asociados con el RL profundo.

La segunda rama de investigación en los orígenes de GPE y GPI, relacionada con este último, se ocupa de componer comportamientos para crear nuevos comportamientos. La idea de un controlador descentralizado que ejecuta sub-controladores ha surgido varias veces a lo largo de los años (por ejemplo, Brooks, 1986), y su implementación mediante funciones de valor se remonta al menos a 1997, con las tesis doctorales de Humphrys y Karlsson. GPI también está estrechamente relacionado con el RL jerárquico, cuyos fundamentos se establecieron en la década de 1990 y principios de la década de 2000 en los trabajos de Dayan y Hinton, Parr y Russell, Sutton, Precup y Singh, y Dietterich. Tanto la composición de comportamientos como el RL jerárquico son áreas de investigación dinámicas en la actualidad (ver lecturas adicionales: “GPI, RL jerárquico y enfoques relacionados”).

Mehta et al. probablemente fueron los primeros en utilizar conjuntamente GPE y GPI, aunque en el escenario que consideraron GPI se reduce a una única elección al principio (es decir, no hay “unión” de políticas). La versión de GPE y GPI discutida en esta publicación del blog se propuso por primera vez en 2016 como un mecanismo para promover el aprendizaje por transferencia. La transferencia en RL se remonta al trabajo de Singh en 1992 y ha experimentado recientemente un resurgimiento en el contexto del RL profundo, donde sigue siendo un área activa de investigación (ver lecturas adicionales: “GPE + GPI, aprendizaje por transferencia y enfoques relacionados”).

Ver más información sobre estos trabajos a continuación, donde también proporcionamos una lista de sugerencias para lecturas adicionales.

Un enfoque compositivo para el aprendizaje por refuerzo

En resumen, un agente sin modelo no puede adaptarse fácilmente a nuevas situaciones, por ejemplo, para acomodar conjuntos de preferencias que no ha experimentado antes. Un agente basado en modelos puede adaptarse a cualquier situación nueva, pero para hacerlo primero debe aprender un modelo de todo el mundo. Un agente basado en GPE y GPI ofrece una solución intermedia: aunque el modelo del mundo que aprende es considerablemente más pequeño que el de un agente basado en modelos, puede adaptarse rápidamente a ciertas situaciones, a menudo con buen rendimiento.

Hablamos de instancias específicas de GPE y GPI, pero en realidad son conceptos más generales. A un nivel abstracto, un agente que utiliza GPE y GPI procede en dos pasos. Primero, cuando se enfrenta a una nueva tarea, se pregunta: “¿Qué tan bien funcionarían las soluciones a tareas conocidas en esta nueva tarea?” Esto es GPE. Luego, basándose en esta evaluación, el agente combina las soluciones anteriores para construir una solución para la nueva tarea, es decir, realiza GPI. Los detalles específicos detrás de GPE y GPI son menos importantes que el principio en sí mismo, y encontrar formas alternativas de llevar a cabo estas operaciones puede ser una dirección de investigación emocionante. Curiosamente, un nuevo estudio en ciencias del comportamiento proporciona evidencia preliminar de que los humanos toman decisiones en escenarios de multitarea siguiendo un principio que se asemeja mucho a GPE y GPI.

La adaptación rápida proporcionada por GPE y GPI es prometedora para construir agentes de RL que aprenden más rápido. Más en general, sugiere un nuevo enfoque para aprender soluciones flexibles a problemas. En lugar de abordar un problema como una tarea única y monolítica, un agente puede dividirlo en subtareas más pequeñas y manejables. Las soluciones de las subtareas luego se pueden reutilizar y combinar para resolver la tarea general más rápido. Esto resulta en un enfoque compositivo para RL que puede conducir a agentes más escalables. Como mínimo, estos agentes no llegarán tarde debido a una taza de café.