Aprendizaje por Reforzamiento Proceso de Decisión de Markov – Parte 1
Aprendizaje por Reforzamiento MDP - Parte 1
Presentando la columna vertebral del Aprendizaje por Reforzamiento: El Proceso de Decisión de Markov

En la mayoría de mis artículos anteriores, he discutido principalmente el Aprendizaje Supervisado, con algunos elementos de Aprendizaje No Supervisado. Sin embargo, en este y los próximos artículos, intentaré abordar el problema del Aprendizaje por Reforzamiento y darle a usted, el lector, una idea clara e intuitiva al respecto.
Primero, demos una visión general del Aprendizaje Automático. En el Aprendizaje Automático, hay 3 subcampos principales diferentes, a saber, Aprendizaje No Supervisado, Aprendizaje Supervisado y Aprendizaje por Reforzamiento. Primero, intentemos entender las diferencias:
- Aprendizaje No Supervisado: Encontrar automáticamente un patrón o asignar etiquetas a todos los puntos de datos sin etiquetas, donde cada punto es un vector de todas las características, generalmente mediante la agrupación. Imagina que te mudas a una habitación nueva, que contiene armarios y armarios, con todas tus pertenencias. Estudias cuidadosamente la habitación y tus pertenencias, y ves qué elementos son similares entre sí, luego ordenas la habitación empaquetando tus pertenencias en sus respectivas ubicaciones categóricas. En esencia, estás practicando el Aprendizaje No Supervisado, un proceso de un solo paso.
- Aprendizaje Supervisado: Ahora tienes estos puntos de datos con etiquetas asignadas, se te enseña a qué etiqueta pertenece cada uno de estos puntos de datos. Luego, encuentras la función que puede ajustar estos puntos de datos a la etiqueta correcta, encontrando
y≈f(x)
. Imagina esto: estás aprendiendo Aprendizaje por Reforzamiento y, al principio, tienes algunas concepciones preconcebidas. Por lo tanto, tuf(x)
se inicializa al azar. Con el tiempo, cuando sigues revisando los materiales de aprendizaje, tus conceptos se vuelven más sólidos. En esencia, estey
es el material de aprendizaje yf(x)
es tu comprensión. Como puedes ver, el Aprendizaje Supervisado es un proceso de un solo paso. - Aprendizaje por Reforzamiento: El Aprendizaje por Reforzamiento es bastante diferente al Aprendizaje Supervisado porque en lugar de depender de etiquetas para el aprendizaje, utiliza recompensas. Además, el Aprendizaje por Reforzamiento suele ser un proceso de varios pasos: muchos estados, con puntos de datos para cada estado, y para cada estado, el agente elige acciones con el objetivo de maximizar las recompensas a largo plazo. En el Aprendizaje Supervisado, la etiqueta
y
…