Investigadores de DeepMind presentan Reinforced Self-Training (ReST) un algoritmo simple para alinear los LLMs con las preferencias humanas, inspirado en el creciente aprendizaje por refuerzo en lotes (RL).
Investigadores de DeepMind presentan Reinforced Self-Training (ReST), un algoritmo inspirado en el aprendizaje por refuerzo en lotes (RL) para alinear los LLMs con las preferencias humanas.
Los modelos de lenguaje grandes (LLMs) son excepcionales en la producción de contenido bien escrito y en la resolución de diversos problemas lingüísticos. Estos modelos se entrenan utilizando vastos volúmenes de texto y cálculos para aumentar la probabilidad del siguiente token de manera autoregresiva. Sin embargo, investigaciones anteriores muestran que crear texto con alta probabilidad solo a veces se corresponde bien con las preferencias humanas en diferentes tareas. Los modelos de lenguaje pueden producir material peligroso con efectos perjudiciales si no se alinean correctamente. Además, la alineación de los LLM mejora el rendimiento de otras operaciones posteriores. Utilizando las preferencias humanas, el aprendizaje por refuerzo a partir de retroalimentación busca resolver el problema de la alineación.
Un modelo de recompensa se aprende típicamente a través de la entrada humana y luego se utiliza para ajustar finamente el LLM utilizando un objetivo de aprendizaje por refuerzo (RL). Las técnicas RLHF a menudo utilizan técnicas de RL en línea como PPO y A2C. Durante el entrenamiento en línea, se debe muestrear la política modificada y las muestras deben ser evaluadas repetidamente utilizando el modelo de recompensa. Los enfoques en línea están limitados por el costo computacional de manejar un flujo constante de datos nuevos, especialmente a medida que aumentan los tamaños de la política y las redes de recompensa. Además, estudios anteriores examinaron la regularización del modelo para abordar el problema de “hackeo” al que estos enfoques son propensos. Como alternativa, los algoritmos de RL fuera de línea son más eficientes computacionalmente y menos vulnerables al hackeo de recompensas porque aprenden de un conjunto de datos predefinido de muestras.
Sin embargo, las características del conjunto de datos fuera de línea están inexorablemente vinculadas a la calidad de la política aprendida fuera de línea. Debido a esto, los conjuntos de datos seleccionados cuidadosamente son cruciales para el éxito del RL fuera de línea. De lo contrario, las mejoras en el rendimiento sobre el aprendizaje supervisado pueden ser modestas. También presentan una técnica conocida como DPO (Optimización de Preferencias Directas), que puede utilizar datos fuera de línea para ajustar un LM a las preferencias humanas. Los investigadores de Google presentan el problema de la alineación del modelo de lenguaje como un problema creciente de RL por lotes y su técnica de autoentrenamiento reforzado (ReST) consta de dos bucles: el bucle interno (Mejorar) mejora la política en un conjunto de datos dado, mientras que el círculo externo (Crecer) expande el conjunto de datos tomando muestras de la política más reciente (ver Figura 1).
Las fases de ReST son las siguientes después de considerar el modelado de lenguaje condicional en este trabajo: 1. Crecer (C): Para complementar el conjunto de datos de entrenamiento, se generan numerosas predicciones de salida para cada escenario utilizando la política del modelo de lenguaje (al principio, una política supervisada). 2. Mejorar (I): Clasifican y filtran el conjunto de datos enriquecido utilizando una fórmula de puntuación. Como función de puntuación en sus estudios, utilizan un modelo de recompensa de aprendizaje entrenado en las preferencias del consumidor. El conjunto de datos filtrado ajusta el modelo de lenguaje utilizando un objetivo de RL fuera de línea. Con un umbral de filtrado creciente, repiten este proceso. El siguiente paso de Crecer utiliza la política final después de eso. ReST es un enfoque general que permite utilizar diferentes pérdidas de RL fuera de línea en el bucle interno al ejecutar las etapas de Mejorar.
- Idioma para recompensas en la síntesis de habilidades robóticas
- Los anuncios de YouTube podrían haber llevado al seguimiento en lín...
- Datos, optimizados Cómo construir mejores productos, flujos de trab...
Solo requiere la capacidad de 1) muestrear de manera efectiva de un modelo y 2) puntuar las muestras del modelo para ponerlo en práctica. ReST tiene varias ventajas sobre el enfoque estándar de RLHF utilizando RL en línea u fuera de línea:
• La salida de la fase de Crecer se utiliza en numerosas etapas de Mejorar, lo que reduce enormemente el costo computacional en comparación con RL en línea.
• Dado que los nuevos datos de entrenamiento se muestrean a partir de una política mejorada durante el paso de Crecer, la calidad de la política no está limitada por la calidad del conjunto de datos original (a diferencia del RL fuera de línea).
• Es simple inspeccionar la calidad de los datos y potencialmente diagnosticar problemas de alineación, como el hacking de recompensas, ya que los pasos de Crecimiento y Mejora están desacoplados.
• Hay pocos hiperparámetros que ajustar, y la técnica es sencilla y confiable.
La traducción automática es un problema de aprendizaje de secuencia a secuencia típicamente expresado como un modelado de lenguaje condicional, con una frase en un idioma extranjero como contexto condicional (fuente). Eligen la traducción automática porque (a) es una aplicación útil con bases sólidas y un proceso de evaluación claro, y (b) se pueden utilizar varios métodos de evaluación y puntuación creíbles como modelo de recompensa. Comparan varios algoritmos de RL offline en sus estudios sobre los bancos de pruebas IWSLT 2014 y WMT 2020, así como en bancos de pruebas internos más desafiantes y de alta fidelidad en el dominio web. ReST mejora drásticamente los resultados del modelo de recompensa en los conjuntos de prueba y validación en sus pruebas. Según los evaluadores humanos, ReST produce traducciones de mejor calidad que una línea de base de aprendizaje supervisado.