Enfoques de aprendizaje en contexto en modelos de lenguaje grandes

'Contextual learning approaches in large language models'

Técnicas simples y poderosas para hacer que los LLM aprendan nuevas tareas en tiempo de inferencia

Introducción

El modelado de lenguaje (LM, por sus siglas en inglés) tiene como objetivo modelar la probabilidad generativa de secuencias de palabras, para predecir las probabilidades de futuros tokens (o tokens faltantes). Los modelos de lenguaje han revolucionado el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) en los últimos años. Ahora se sabe que aumentar la escala de los modelos de lenguaje (por ejemplo, computación de entrenamiento, parámetros del modelo, etc.) puede mejorar el rendimiento y la eficiencia de muestreo en una variedad de tareas de NLP posteriores. El artículo de investigación “A Survey of Large Language Models” [1] cubre casi todos los aspectos de los grandes modelos de lenguaje. El artículo proporciona una revisión actualizada de la literatura sobre LLM, detalles sobre los mecanismos de entrenamiento como enfoques de pre-entrenamiento junto con técnicas de ajuste de instrucciones y entrenamiento de alineación adicional con el enfoque RLHF reciente. Los enfoques de ajuste de instrucciones y ajuste de alineación se utilizan para adaptar los LLM según objetivos específicos.

Después del pre-entrenamiento o ajuste de adaptación, un enfoque importante para utilizar LLM es diseñar estrategias de instrucción adecuadas para resolver diversas tareas. Un método de instrucción típico, también conocido como aprendizaje en contexto (ICL, por sus siglas en inglés), formula la descripción de la tarea y/o demostraciones (ejemplos) en forma de texto en lenguaje natural.

Aprendizaje en contexto

Los LLM demuestran una capacidad de aprendizaje en contexto (ICL), es decir, aprender a partir de unos pocos ejemplos en el contexto. Muchos estudios han demostrado que los LLM pueden realizar una serie de tareas complejas a través de ICL, como resolver problemas de razonamiento matemático.

La idea clave del aprendizaje en contexto es aprender a través de analogía. La figura a continuación muestra un ejemplo que describe cómo los modelos de lenguaje toman decisiones con ICL. En primer lugar, ICL requiere unos pocos ejemplos para formar un contexto de demostración. Estos ejemplos suelen estar escritos en plantillas de lenguaje natural. Luego, ICL concatena una pregunta de consulta y un fragmento de contexto de demostración para formar una indicación, que luego se alimenta al modelo de lenguaje para su predicción [2].

Ejemplo de Aprendizaje en Contexto

A diferencia del aprendizaje supervisado que requiere una etapa de entrenamiento que utiliza gradientes inversos para actualizar los parámetros del modelo, ICL no realiza actualizaciones de parámetros y realiza predicciones directamente en los modelos de lenguaje pre-entrenados. Se espera que el modelo aprenda el patrón oculto en la demostración y realice la predicción correcta.

¿Qué hace atractivo al ICL?

  1. Los ejemplos escritos en lenguaje natural proporcionan una interfaz interpretable para comunicarse con los LLM. Este paradigma facilita mucho la incorporación del conocimiento humano en los LLM mediante el cambio de los ejemplos y las plantillas
  2. Es similar al proceso de toma de decisiones de los seres humanos al aprender por analogía.
  3. En comparación con el entrenamiento supervisado, ICL es un marco de aprendizaje sin entrenamiento. Esto no solo reduce en gran medida los costos computacionales para adaptar el modelo a nuevas tareas, sino que también hace posible el uso de modelos de lenguaje como servicio y se puede aplicar fácilmente a tareas del mundo real a gran escala.

Pero, ¿cómo funciona esto?

Después del pre-entrenamiento, los LLM pueden mostrar capacidades intrigantes de ICL (capacidades emergentes) sin ser actualizados [3]. Aunque intuitivamente razonable, el mecanismo de funcionamiento del ICL aún no está claro y pocos estudios han proporcionado explicaciones preliminares para las dos preguntas.

¿Cómo afecta el pre-entrenamiento a la capacidad de ICL?

Los investigadores sugirieron que un modelo pre-entrenado adquiere algunas capacidades emergentes de ICL cuando alcanza una gran cantidad de pasos de pre-entrenamiento o parámetros del modelo [3]. Algunos estudios también mostraron que la capacidad de ICL aumenta a medida que los parámetros de los LLM aumentan de 0.1 mil millones a 175 mil millones. La investigación sugiere que el diseño de las tareas de entrenamiento es un factor de influencia importante en la capacidad de ICL de los LLM. Además de las tareas de entrenamiento, estudios recientes también han investigado la relación entre ICL y las corpora de pre-entrenamiento. Se ha demostrado que el rendimiento de ICL depende en gran medida de la fuente de las corpora de pre-entrenamiento en lugar de la escala.

¿Cómo realizan los LLM ICL durante la inferencia?

En el artículo “Why Can GPT Learn In-Context?” [4], los investigadores descubrieron una forma dual entre la atención del Transformer y el descenso de gradiente y propusieron entender ICL como un ajuste fino implícito. Compararon el ICL basado en GPT y el ajuste fino explícito en tareas reales y encontraron que ICL se comporta de manera similar al ajuste fino desde múltiples perspectivas. Bajo este marco, el proceso de ICL se puede explicar de la siguiente manera: mediante el cálculo hacia adelante, los LLM generan meta-gradientes con respecto a las demostraciones y realizan implícitamente el descenso de gradiente a través del mecanismo de atención.

Otra perspectiva de la investigación de Stanford [5] explica ‘El aprendizaje en contexto como inferencia bayesiana implícita’. Los autores proporcionan un marco en el que el modelo de lenguaje realiza un aprendizaje en contexto utilizando el estímulo para “localizar” el concepto relevante que ha aprendido durante el preentrenamiento para realizar la tarea. Teóricamente, podemos ver esto como una inferencia bayesiana de un concepto latente condicionado al estímulo, y esta capacidad proviene de la estructura (coherencia a largo plazo) en los datos de preentrenamiento.

Aunque hay algunas respuestas, esta investigación aún está evolucionando para comprender mejor el mecanismo y las razones subyacentes.

Enfoques de Aprendizaje en Contexto

Ahora vamos a explorar algunos métodos populares de ICL.

  • Cadena de pensamiento (CoT)
  • Coherencia propia de CoT
  • Árbol de pensamientos

Cadena de pensamiento (CoT)

Se observa que las técnicas de estímulo estándar (también conocidas como estímulo general de entrada-salida) no funcionan bien en tareas de razonamiento complejas, como el razonamiento aritmético, el razonamiento del sentido común y el razonamiento simbólico. La CoT es una estrategia de estímulo mejorada para mejorar el rendimiento de los LLM en casos no triviales que implican razonamiento [6]. En lugar de simplemente construir los estímulos con pares de entrada-salida como en ICL, CoT incorpora pasos de razonamiento intermedios que pueden conducir a la salida final en los estímulos. Como se puede ver en el ejemplo a continuación.

Referencia[6]

La figura anterior muestra un ejemplo de un modelo que produce una cadena de pensamiento para resolver un problema de matemáticas que de otra manera hubiera fallado. En el lado izquierdo, en ICL, se proporciona al modelo ejemplos o demostraciones de preguntas de razonamiento matemático y una respuesta directa. Pero el modelo no puede predecir la respuesta correcta.

En el lado derecho, en CoT, se presenta al modelo un paso intermedio para ayudar a llegar a una respuesta del ejemplo/demostración dada. Podemos ver que cuando se le hace ahora al modelo una pregunta de razonamiento similar, puede predecir la respuesta correctamente, demostrando así la eficacia del enfoque de CoT para dicho uso.

Si observas, CoT o ICL en general proporcionan algunos ejemplos para demostrar los casos de uso, esto se llama Pocos Ejemplos (pocos ejemplos). Hay otro artículo [7] que presenta un interesante estímulo “Pensemos paso a paso…” sin ejemplos para demostrar el caso de uso, esto se llama Cero Ejemplos (ningún ejemplo).

En Cero-shot CoT, el LLM se estimula primero con “Pensemos paso a paso” para generar pasos de razonamiento y luego se estimula con “Por lo tanto, la respuesta es” para derivar la respuesta final. Encuentran que esta estrategia mejora drásticamente el rendimiento cuando el tamaño del modelo supera cierto umbral, pero no es efectiva con modelos de pequeña escala, mostrando un patrón significativo de habilidades emergentes.

Referencia[7]

Arriba: Ejemplos de entradas y salidas de GPT-3 con (a) Pocos ejemplos estándar (ICL), (b) Pocos ejemplos-CoT, (c) Cero ejemplos estándar (ICL) y (d) nuestro enfoque (Cero ejemplos-CoT).

Similar a Pocos ejemplos-CoT, Cero ejemplos-CoT facilita el razonamiento de múltiples pasos (texto en azul) y llega a la respuesta correcta donde el estímulo estándar falla. A diferencia de Pocos ejemplos-CoT que utiliza ejemplos de razonamiento paso a paso por tarea, Cero-shot no necesita ningún ejemplo y solo utiliza el mismo estímulo “Pensemos paso a paso” en todas las tareas (razonamiento aritmético, simbólico, del sentido común y otros razonamientos lógicos).

Esta investigación muestra que los LLM son razonadores decentes sin ejemplos al agregar un estímulo simple, “Pensemos paso a paso”, para facilitar el pensamiento paso a paso antes de responder cada pregunta.

Veamos qué sucede por debajo:

Aunque Cero ejemplos-CoT es conceptualmente simple, utiliza el estímulo dos veces para extraer tanto el razonamiento como la respuesta, como se explica en la figura a continuación.

Referencia[7]

El proceso involucra dos pasos: primero “extracción de la indicación de razonamiento” para extraer un camino completo de razonamiento de un modelo de lenguaje, y luego utilizar el segundo “extracción de la indicación de respuesta” para extraer la respuesta en el formato correcto del texto de razonamiento.

1ra indicación – extracción de razonamiento

En este paso, primero se modifica la pregunta de entrada x en una indicación x’ utilizando una plantilla simple “P: [X]. R: [T]”, donde [X] es un espacio para x y [T] es un espacio para una oración desencadenante hecha a mano t que extraería la cadena de pensamiento para responder la pregunta x. Por ejemplo, si usamos “Pensemos paso a paso” como una oración desencadenante, la indicación x’ sería “P: [X]. R: Pensemos paso a paso”. El texto de la indicación x’ se ingresa en un modelo de lenguaje y genera la oración subsiguiente z. Se puede utilizar cualquier estrategia de decodificación.

Algunos otros ejemplos de tales indicaciones:

Pensemos en esto lógicamente.

Resolvamos este problema dividiéndolo en pasos.

Pensemos como un detective paso a paso.

Antes de sumergirnos en la respuesta.

2da indicación – extracción de respuesta

En el segundo paso, la oración generada z junto con la oración de indicación x’ se utiliza para extraer la respuesta final del modelo de lenguaje. Para ser concretos, simplemente se concatenan tres elementos como ” [X’] [Z] [A] “: [X’] para la 1ra indicación x’, [Z] para la oración z generada en el primer paso, y [A] para una oración desencadenante para extraer la respuesta. La indicación para este paso se autoaumenta ya que contiene la oración z generada por el mismo modelo de lenguaje. En los experimentos, los autores utilizan una oración desencadenante ligeramente diferente dependiendo del formato de respuesta.

Por ejemplo, se utiliza “Por lo tanto, entre A y E, la respuesta es” para preguntas de opción múltiple, y “Por lo tanto, la respuesta (números arábigos) es” para problemas matemáticos que requieren una respuesta numérica.

El artículo [11] tiene ideas interesantes, el rendimiento de varias indicaciones, etc., por favor lea para más detalles.

¿Cuándo funciona CoT para LLMs?

Solo tiene un efecto positivo en modelos suficientemente grandes (por ejemplo, típicamente con 10B o más parámetros) pero no en modelos pequeños. Este fenómeno se denomina “habilidades emergentes” de los modelos de lenguaje grandes. Una habilidad se considera emergente si no está presente en modelos más pequeños pero está presente en modelos más grandes [3].

  • Es principalmente efectivo para mejorar las tareas que requieren razonamiento paso a paso, como el razonamiento aritmético, el razonamiento del sentido común y el razonamiento simbólico.
  • Para otras tareas que no dependen de un razonamiento complejo, podría mostrar un rendimiento peor que el estándar. Curiosamente, parece que la mejora de rendimiento proporcionada por la indicación de CoT podría ser significativa solo cuando la indicación estándar produce resultados pobres.

¿Por qué LLMs pueden realizar razonamiento CoT?

  • Se postula ampliamente que se puede atribuir al entrenamiento en código, ya que los modelos entrenados en esto muestran una fuerte capacidad de razonamiento. Intuitivamente, los datos de código están bien organizados con lógica algorítmica y flujo de programación, lo cual puede ser útil para mejorar el rendimiento de razonamiento de LLMs. Sin embargo, esta hipótesis aún carece de evidencia de experimentos de ablación informados públicamente (con y sin entrenamiento en código).
  • La distinción principal entre la indicación de CoT y la indicación estándar es la incorporación de caminos de razonamiento antes de la respuesta final. Por lo tanto, algunos investigadores investigan el efecto de los diferentes componentes en los caminos de razonamiento. Específicamente, un estudio reciente identifica tres componentes clave en la indicación de CoT, a saber, símbolos (por ejemplo, cantidades numéricas en el razonamiento aritmético), patrones (por ejemplo, ecuaciones en el razonamiento aritmético) y texto (es decir, el resto de los tokens que no son símbolos ni patrones). Se muestra que los dos últimos componentes (es decir, patrones y texto) son esenciales para el rendimiento del modelo, y eliminar cualquiera de ellos llevaría a una disminución significativa en el rendimiento.

En resumen, esta es un área de investigación activa. Para una discusión más profunda sobre esto, por favor lea [2]. Hay una investigación más interesante [8] que discute posibles razones para el aprendizaje en contexto en modelos de transformadores.

COT de autoconsistencia

En lugar de utilizar la estrategia de decodificación codiciosa en COT, los autores en [9] proponen otra estrategia de decodificación llamada autoconsistencia para reemplazar la estrategia de decodificación codiciosa utilizada en la generación de pensamiento en cadena, lo cual mejora aún más el rendimiento de razonamiento de los modelos de lenguaje de manera significativa. La autoconsistencia se basa en la intuición de que las tareas de razonamiento complejo suelen admitir múltiples caminos de razonamiento que llegan a una respuesta correcta. Cuanto más se requiere pensamiento y análisis deliberado para un problema, mayor es la diversidad de caminos de razonamiento que pueden llegar a la respuesta.

Primero, se le da una indicación al modelo de lenguaje con la generación de pensamiento en cadena, luego, en lugar de decodificar de forma codiciosa el camino de razonamiento óptimo, los autores proponen un procedimiento de decodificación llamado “muestrear y marginalizar”.

La figura a continuación ilustra el método de autoconsistencia con un ejemplo.

Referencia[9]

Primero se obtiene una muestra del decodificador del modelo de lenguaje para generar un conjunto diverso de caminos de razonamiento; cada camino de razonamiento puede llevar a una respuesta final diferente, por lo que se determina la respuesta óptima al marginalizar los caminos de razonamiento muestreados para encontrar la respuesta más consistente dentro del conjunto de respuestas finales. En otras palabras, a partir del decodificador del modelo, al tomar una votación mayoritaria sobre las respuestas, llegamos a la respuesta más “consistente” entre el conjunto de respuestas finales.

Ejemplo de votación mayoritaria

Este enfoque es análogo a la experiencia humana de que si varias formas diferentes de pensar llegan a la misma respuesta, se tiene mayor confianza en que la respuesta final es correcta. En comparación con otros métodos de decodificación, la autoconsistencia evita la repetitividad y la optimalidad local que afectan a la decodificación codiciosa, al tiempo que mitiga la estocasticidad de una generación muestreada individualmente.

Una extensa evaluación empírica muestra que la autoconsistencia mejora el rendimiento de la generación de pensamiento en cadena de manera notable en una variedad de bancos de pruebas populares de aritmética y razonamiento de sentido común, incluyendo GSM8K (+17.9%), SVAMP (+11.0%), AQuA (+12.2%), StrategyQA (+6.4%) y ARC-challenge (+3.9%).

Una limitación de la autoconsistencia es que conlleva un mayor costo computacional. En la práctica, las personas pueden probar un pequeño número de caminos (por ejemplo, 5 o 10) como punto de partida para obtener la mayoría de las mejoras sin incurrir en un costo demasiado alto, ya que en la mayoría de los casos el rendimiento se satura rápidamente.

Árbol de pensamientos

Los autores en [10] proponen el “Árbol de Pensamientos” (ToT), que generaliza el enfoque de “Cadena de Pensamientos” para guiar a los modelos de lenguaje y permite explorar unidades coherentes de texto (“pensamientos”) que sirven como pasos intermedios hacia la resolución de problemas. ToT permite a los modelos de lenguaje tomar decisiones deliberadas considerando múltiples caminos de razonamiento diferentes y autoevaluar opciones para decidir el siguiente curso de acción, así como mirar hacia adelante o retroceder cuando sea necesario para tomar decisiones globales. Los resultados y experimentos muestran que ToT mejora significativamente las habilidades de resolución de problemas de los modelos de lenguaje en tres tareas nuevas que requieren planificación o búsqueda no trivial: Juego de 24, Escritura Creativa y Mini Crucigramas.

Esquema que ilustra varios enfoques de generación de pensamiento, cada cuadro rectangular representa un pensamiento

El Árbol de Pensamientos (ToT) permite a los modelos de lenguaje explorar múltiples caminos de razonamiento sobre pensamientos (figura anterior). ToT enmarca cualquier problema como una búsqueda en un árbol, donde cada nodo es un estado s = [x, z1···i] que representa una solución parcial con la entrada x y la secuencia de pensamientos hasta ahora zi. ToT realiza 4 acciones: descomposición de pensamientos, generador de pensamientos, evaluador de estado y algoritmo de búsqueda.

1. Descomposición de pensamientos: Descomponer el proceso intermedio en pasos de pensamiento:

Mientras que CoT muestra pensamientos de manera coherente sin una descomposición explícita, ToT aprovecha las propiedades del problema para diseñar y descomponer pasos intermedios del pensamiento. Como muestra la Tabla 1, dependiendo de los diferentes problemas, un pensamiento puede ser un par de palabras (Crucigramas), una línea de ecuación (Juego de 24) o un párrafo completo de un plan de escritura (Escritura creativa). Es como dividir la pregunta en varias tareas. Cada tarea es un paso Zn que discutimos. Tenga en cuenta que esta parte trata solo sobre la descomposición de las preguntas en tareas. Es como planificar, no hacemos realmente ningún pensamiento en esta parte.

Referencia [10]

2. Generación de pensamientos: Entonces, después de definir la tarea para cada paso en la descomposición del pensamiento. Ahora generamos los pensamientos. Intentamos generar k pensamientos como candidatos para un paso Zn dado. Hay dos formas de generar pensamientos: muestreo y propuesta.

a. Muestrear pensamientos i.i.d. de una indicación de CoT. Repetimos el proceso de generación k veces de forma independiente. Esto funciona mejor cuando el espacio de pensamiento es rico (por ejemplo, cada pensamiento es un párrafo) y las muestras i.i.d. conducen a la diversidad.

Un paso de búsqueda deliberada en una tarea de Escritura creativa seleccionada al azar.

En la figura anterior, un paso de búsqueda deliberada en una tarea de Escritura creativa seleccionada al azar. Dada la entrada, el LM genera 5 planes diferentes y luego vota 5 veces para decidir qué plan es el mejor. La elección mayoritaria se utiliza para escribir consecuentemente el pasaje de salida con el mismo procedimiento de muestreo-votación.

b. Proponer pensamientos secuencialmente usando una “indicación de propuesta”. Esto funciona mejor cuando el espacio de pensamiento es más limitado (por ejemplo, cada pensamiento es solo una palabra o una línea), por lo que proponer diferentes pensamientos en el mismo contexto evita la duplicación. En esto, generamos k pensamientos en una inferencia. Por lo tanto, estos k pensamientos pueden no ser independientes.

3. Evaluar estados: En esta parte, definimos una función de evaluación de estados: v(s). Para expandir el árbol, utilizamos esta función para encontrar el buen camino, como en la programación de ajedrez. Evaluamos el camino dado del árbol s=[x, z1…i]. Hay dos formas de definir la función de evaluación:

  • Valorar cada estado de forma independiente: cada estado ‘s’ (o camino) se evaluará de forma independiente. [ Ejemplo: Juego de 24 ]
  • Votar entre los estados: cada estado ‘s’ se evaluará dado el conjunto de todos los estados S. Como comparar los estados en S entre sí como en CoT de autoconsistencia. [ Ejemplo: tarea de escritura creativa ]

Ejemplo de Juego de 24:

Juego de 24 es un desafío de razonamiento matemático, donde el objetivo es usar 4 números y operaciones aritméticas básicas (+ – * /) para obtener 24. Por ejemplo, dada la entrada “4 9 10 13”, una posible solución de salida podría ser “(10-4) * (13-9) = 24”.

Descomposición de 'Juego de 24' en ToT. Se solicita al LM (a) la generación de pensamientos y (b) la valoración.

Para enmarcar ‘Juego de 24’ en ToT, descomponemos los pensamientos en 3 pasos, cada uno una ecuación intermedia. Como se muestra en la figura anterior (a), en cada nodo del árbol, extraemos los números “izquierdos” y pedimos al LM que proponga algunos posibles siguientes pasos. La misma “indicación de propuesta” se utiliza para los 3 pasos del pensamiento, aunque solo tiene un ejemplo con 4 números de entrada. Realizamos una búsqueda en amplitud (BFS) en ToT, donde en cada paso mantenemos los mejores b = 5 candidatos. Para realizar una búsqueda BFS deliberada en ToT, como se muestra en la figura (b), solicitamos al LM que evalúe cada pensamiento candidato como “seguro/quizás/imposible” con respecto a alcanzar 24. El objetivo es promover soluciones parciales correctas que puedan ser verificadas en pocas pruebas anticipadas y eliminar soluciones parciales imposibles basadas en el sentido común de “demasiado grande/pequeño”, y mantener el resto como “quizás”. Muestreamos los valores 3 veces para cada pensamiento.

4. Algoritmo de búsqueda: Intentamos expandir el árbol. Para cada nodo hoja, lo evaluamos con la función de evaluación del estado. Para elegir qué nodo hoja evaluar, utilizamos un algoritmo de búsqueda. Puede ser una búsqueda en anchura o una búsqueda en profundidad. Se pueden usar diferentes algoritmos de búsqueda según la estructura del árbol.

En términos conceptuales, ToT tiene varias ventajas como método para resolver problemas generales con LMs:

  • Generalidad: IO, CoT, CoT-SC y autorrefinamiento pueden verse como casos especiales de ToT (es decir, árboles de profundidad y amplitud limitada)
  • Modularidad: El LM base, así como los procedimientos de descomposición, generación, evaluación y búsqueda de ideas, pueden variarse de forma independiente.
  • Adaptabilidad: Se pueden acomodar diferentes propiedades del problema, capacidades del LM y restricciones de recursos.
  • Comodidad: No se necesita entrenamiento adicional, solo un LM preentrenado es suficiente.

El marco de trabajo ToT permite a los LMs tomar decisiones y resolver problemas de manera más autónoma e inteligente.

Limitaciones. ToT requiere más recursos (por ejemplo, costo de la API del modelo) que los métodos de muestreo para mejorar el rendimiento de las tareas, pero la flexibilidad modular de ToT permite a los usuarios personalizar estos intercambios entre rendimiento y costo, y los esfuerzos continuos de código abierto deberían reducir estos costos en un futuro cercano.

Técnicas de Autopromoción

La ingeniería de promoción es una ciencia empírica y el efecto de los métodos de ingeniería de promoción puede variar mucho entre modelos, lo que requiere una gran cantidad de experimentación y heurísticas. ¿Podemos automatizar este proceso de ingeniería de promoción? Esta es un área de investigación activa y la siguiente sección discute algunos intentos hacia enfoques automáticos de diseño de promoción.

Aumento y Selección Automáticos de la Promoción COT

En el artículo titulado “Aumento y Selección Automáticos de la Promoción con Cadena de Pensamiento a partir de Datos Etiquetados” [11]. La mayoría de los estudios de CoT se basan en cadenas racionales cuidadosamente diseñadas y anotadas por humanos para promover el modelo de lenguaje, lo que plantea desafíos para aplicaciones del mundo real donde los datos de entrenamiento etiquetados están disponibles sin cadenas racionales anotadas por humanos. Para construir promociones de cadena de pensamiento automáticamente, los autores sugieren un proceso de tres pasos: aumentar, podar y seleccionar:

  1. Aumentar: Generar múltiples pseudo-cadenas de pensamiento dada una pregunta utilizando promociones de CoT con pocos o ningún ejemplo;
  2. Podar: Podar las pseudo-cadenas basándose en si las respuestas generadas coinciden con las respuestas correctas.
  3. Seleccionar: Aplicar una estrategia de gradiente de política con varianza reducida para aprender la distribución de probabilidad sobre los ejemplos seleccionados, considerando la distribución de probabilidad sobre los ejemplos como política y la precisión del conjunto de validación como recompensa.

Auto-CoT: Promoción Automática de Cadena de Pensamiento

En “Promoción Automática de Cadena de Pensamiento en Modelos de Lenguaje Grandes” [12], los autores proponen el paradigma Auto-CoT para construir automáticamente demostraciones con preguntas y cadenas de razonamiento. En esta técnica, los autores adoptaron técnicas de agrupamiento para muestrear preguntas y luego generar cadenas. Observaron que los LLM tienden a cometer ciertos tipos de errores. Un tipo de error puede ser similar en el espacio de incrustación y, por lo tanto, agruparse. Al muestrear solo uno o algunos de los conglomerados de errores frecuentes, podemos evitar demasiadas demostraciones incorrectas de un tipo de error y recopilar un conjunto diverso de ejemplos.

Auto-COT: Promoción Automática de Cadena de Pensamiento

Auto-CoT consta de las siguientes etapas principales:

  1. Agrupación de preguntas: Realizar un análisis de clúster para un conjunto dado de preguntas Q. Primero, calcular una representación vectorial para cada pregunta en Q utilizando Sentence-BERT. Los vectores contextualizados se promedian para formar una representación de pregunta de tamaño fijo. Luego, las representaciones de preguntas se procesan mediante el algoritmo de agrupamiento k-means para producir k clústeres de preguntas.
  2. Selección de demostraciones: Seleccionar un conjunto de preguntas representativas de cada clúster; es decir, una demostración de un clúster. Las muestras en cada clúster se ordenan por distancia al centroide del clúster y se seleccionan primero aquellas más cercanas al centroide.
  3. Generación de razonamiento: Utilizar CoT con pocos ejemplos para generar cadenas de razonamiento para las preguntas seleccionadas y construir una promoción con pocos ejemplos para realizar la inferencia.

Los LLM han demostrado capacidades de razonamiento con la ayuda de CoT. El rendimiento superior de Manual-CoT se basa en la creación manual de demostraciones. Para eliminar este diseño manual, el propuesto Auto-CoT construye automáticamente las demostraciones. Muestrea preguntas con diversidad y genera cadenas de razonamiento para construir las demostraciones. Los resultados experimentales en conjuntos de datos de razonamiento mostraron que con GPT-3, Auto-CoT iguala o supera consistentemente el rendimiento del paradigma CoT que requiere diseños manuales de demostraciones.

Conclusion

El aprendizaje en contexto o la promoción nos ayuda a comunicarnos con LLM para dirigir su comportamiento hacia resultados deseados. Es un enfoque atractivo para extraer información porque no se necesita un gran conjunto de entrenamiento sin conexión, no se necesita acceso sin conexión a un modelo y se siente intuitivo incluso para los no ingenieros. La ingeniería de las promociones tiene como objetivo utilizar la promoción como una forma de construir funcionalidad confiable para aplicaciones del mundo real. Es una ciencia empírica y el efecto de los métodos de ingeniería de promociones puede variar mucho entre modelos, lo que requiere experimentación y heurísticas intensivas. La promoción requiere esfuerzos humanos significativos para crear y adaptarse a nuevos conjuntos de datos. El proceso de anotación no es trivial porque los humanos no solo necesitan seleccionar las preguntas, sino también diseñar cuidadosamente los pasos de razonamiento para cada pregunta, por lo que existe la necesidad de automatizar las técnicas de promoción.

Referencias

[1] Una encuesta sobre modelos de lenguaje grandes, https://arxiv.org/pdf/2303.18223.pdf

[2] Una encuesta sobre aprendizaje en contexto, https://arxiv.org/pdf/2301.00234.pdf

[3] Habilidades emergentes de los modelos de lenguaje grandes, https://arxiv.org/pdf/2206.07682.pdf

[4] ¿Por qué GPT puede aprender en contexto? Los modelos de lenguaje realizan de manera implícita el descenso de gradiente como meta-optimizadores, https://arxiv.org/pdf/2212.10559.pdf

[5] Una explicación del aprendizaje en contexto como inferencia bayesiana implícita, http://ai.stanford.edu/blog/understanding-incontext/

[6] La promoción de cadena de pensamiento provoca razonamiento en modelos de lenguaje grandes, https://arxiv.org/pdf/2201.11903.pdf

[7] Los modelos de lenguaje grandes son razonadores sin entrenamiento, https://arxiv.org/pdf/2205.11916.pdf

[8] Aprendizaje en contexto y cabezas de inducción. Circuitos Transformer, 2022. https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html .

[9] La autoconsistencia mejora el razonamiento de cadena de pensamiento en LLM, https://arxiv.org/pdf/2203.11171.pdf

[10] Árbol de pensamientos, https://arxiv.org/pdf/2305.10601.pdf

[11] Aumento y selección automáticos de promoción con cadena de pensamiento a partir de datos etiquetados, https://arxiv.org/pdf/2302.12822.pdf

[12] Promoción automática de cadena de pensamiento en modelos de lenguaje grandes, https://arxiv.org/pdf/2210.03493.pdf

[13] Los modelos de lenguaje grandes pueden mejorar por sí mismos, https://www.arxiv-vanity.com/papers/2210.11610/