Investigadores de Stanford presentan SequenceMatch Entrenamiento de LLMs con una pérdida de aprendizaje por imitación.

Stanford researchers present SequenceMatch Training of LLMs with imitation learning loss.

Los modelos autoregresivos son una clase de modelos estadísticos basados en la intuición de que el valor actual de una variable depende en gran medida de sus valores pasados. En otras palabras, el modelo predice el valor futuro de una variable mediante una regresión en sus valores pasados. Uno de los ejemplos más conocidos de modelos autoregresivos es la clase de modelos GPT, especialmente GPT-3 y sus variantes, que se basan en gran medida en la predicción de la siguiente palabra en una secuencia dada las palabras anteriores. Al entrenar GPT de esta manera autoregresiva en un gran corpus de texto, aprende a capturar los patrones estadísticos, las dependencias y las relaciones semánticas en el lenguaje, lo que le permite generar texto contextualmente relevante basado en la entrada solicitada. Sin embargo, los experimentos de investigación previos han demostrado que los modelos más pequeños o los modelos que se ajustan para tener menos aleatoriedad o variabilidad (es decir, temperaturas de generación más bajas) tienden a generar salidas repetitivas o erróneas. Además, en ciertos escenarios, estos modelos utilizan sus propias salidas como entradas, lo que a menudo lleva a errores que rápidamente sacan al modelo de su distribución prevista.  

Para superar estos desafíos, un equipo de investigadores de Stanford realizó estudios iniciales e identificó dos obstáculos principales que impiden que los modelos autoregresivos entrenados con la estimación de máxima verosimilitud (MLE) generen secuencias coherentes durante la evaluación. El primer problema radica en la medida de divergencia utilizada para evaluar la disparidad entre el modelo y la distribución de datos. Debido a que MLE no considera secuencias fuera de distribución (OOD), el comportamiento del modelo en tales secuencias no puede ser controlado. Para abordar esto, los investigadores idearon la idea de minimizar la divergencia χ2 entre una combinación de datos reales y las secuencias generadas autoregresivamente, lo que ha demostrado un rendimiento superior en comparación con MLE. El segundo desafío surge cuando el modelo produce un token OOD sin una continuación adecuada que esté alineada con la distribución de datos. Para abordar esto, los investigadores introducen una acción de <backspace> en el proceso de generación, permitiendo que el modelo borre el token anterior y corrija cualquier error que pueda haber cometido.

Al extraer estas lecciones de sus estudios preliminares, los investigadores de Stanford han ideado un método novedoso llamado SequenceMatch, que permite el entrenamiento de modelos autoregresivos contra diferentes técnicas de divergencia mientras se agrega una acción de <backspace> que permite que el modelo corrija errores. Los investigadores reformularon el problema de la generación de secuencias como un problema de aprendizaje por refuerzo que, en términos simples, se puede resumir como elegir el próximo curso de acción (que, en este caso, es generar el siguiente token) de todas las posibles secuencias para un estado dado (es decir, una secuencia parcial). Por lo tanto, mediante la utilización de los últimos desarrollos en el aprendizaje por imitación no adversarial, que es un marco dentro del campo del aprendizaje por refuerzo, los investigadores lograron reducir la divergencia entre las medidas de ocupación de un modelo entrenado y la distribución de los datos reales. Además, para minimizar aún más el error compuesto en la generación de secuencias, el modelo autoregresivo se entrenó con una acción de <backspace>, en lugar de MLE, para facilitar la retrotrayectoria permitiendo al modelo eliminar tokens. Esta técnica de pérdida completamente supervisada para el modelado del lenguaje, SequenceMatch, se puede utilizar como un paso adicional para ajustar modelos preentrenados.

Los investigadores llevaron a cabo varias evaluaciones experimentales para comparar el rendimiento de los modelos basados en GPT-2 ajustados en SequenceMatch con los modelos entrenados en MLE. Los investigadores utilizaron el puntaje MAUVE como métrica para comparar el rendimiento, y se reveló que los modelos ajustados en SequenceMatch generaron texto más cercano al conjunto de datos y parecían más fluidos y sin errores en contraste con los modelos entrenados en MLE. El equipo también destacó la limitación de su modelo, ya que requiere más recursos computacionales y tiempo para generar textos largos. En cuanto al trabajo futuro, los investigadores se centran en estudiar cómo diferentes métodos de divergencia afectan la calidad de las secuencias generadas.