Un pilar fundamental del RL TD(λ) y 3 Grandes Nombres

Reinforcement Learning TD(λ) and 3 Big Names

Cómo se pueden derivar Monte Carlo, SARSA y Q-learning a partir de TD(λ)

Foto de Loïc Barré en Unsplash

Los fundamentos son lo más importante. Antes de sumergirse en algoritmos modernos de Aprendizaje por Reforzamiento (RL), es vital comprender los principios fundamentales sobre los que están construidos.

En el ámbito del RL, esto significa que debemos apreciar el concepto de Aprendizaje de Diferencia Temporal (TD), que generaliza a TD(λ). Utilizando un único código con solo unas pocas líneas, mostraré cómo se puede resolver una forma generalizada de un problema clásico de RL a través de

  1. Monte Carlo,
  2. SARSA,
  3. Q-learning y
  4. TD(λ) con 0 < λ < 1.

Los resultados se presentan como gifs, utilizando funciones de utilidad que puedes reutilizar fácilmente. Como adelanto, ¡podrás generar lo siguiente por ti mismo al final de este artículo!

Nuestro agente (representado por una cara sonriente 😃) comienza en la cuadrícula azul e intenta llegar a la cuadrícula amarilla. La cuadrícula roja conduce a una recompensa negativa severa y termina el episodio, mientras que la cuadrícula naranja incurre en una penalización pero no es un estado terminal. El entorno es ventoso y, para complicar las cosas, el agente puede moverse en una dirección diferente debido a una transición estocástica. Por eso, el movimiento puede diferir de la política (denotada por las flechas). ¡Observa que la política puede parecer contraintuitiva a primera vista. Te aseguro que es correcta debido a cómo se define el entorno!

Se asume un conocimiento básico de RL aquí, aunque resumiré brevemente los conceptos clave para que el contenido sea accesible también para profesionales de otros dominios de aprendizaje automático.

La Gran Imagen

Objetivo Principal de RL

En su núcleo, RL se trata de aprender a tomar una secuencia de acciones que maximice las recompensas acumulativas totales esperadas. Considera las consecuencias retrasadas, incluyendo las limitaciones en el conjunto de acciones disponibles en diferentes estados.