Enseñando a los modelos de lenguaje a razonar de forma algorítmica
Enseñando a modelos de lenguaje a razonar algorítmicamente
Publicado por Hattie Zhou, Estudiante de Posgrado en MILA, Hanie Sedghi, Científico Investigador, Google
Los modelos de lenguaje grandes (LLMs), como GPT-3 y PaLM, han mostrado un impresionante progreso en los últimos años, impulsado por el aumento de tamaño de los modelos y de los datos de entrenamiento. No obstante, ha existido un debate prolongado sobre si los LLMs pueden razonar de manera simbólica (es decir, manipular símbolos basándose en reglas lógicas). Por ejemplo, los LLMs son capaces de realizar operaciones aritméticas simples cuando los números son pequeños, pero les resulta difícil hacerlo con números grandes. Esto sugiere que los LLMs no han aprendido las reglas subyacentes necesarias para realizar estas operaciones aritméticas.
Aunque las redes neuronales tienen capacidades poderosas de coincidencia de patrones, son propensas a sobreajustarse a patrones estadísticos falsos en los datos. Esto no obstaculiza un buen rendimiento cuando los datos de entrenamiento son grandes y diversos y la evaluación se realiza dentro de la distribución. Sin embargo, para tareas que requieren razonamiento basado en reglas (como la suma), los LLMs tienen dificultades para generalizar fuera de la distribución, ya que las correlaciones falsas en los datos de entrenamiento suelen ser mucho más fáciles de explotar que la verdadera solución basada en reglas. Como resultado, a pesar del progreso significativo en una variedad de tareas de procesamiento de lenguaje natural, el rendimiento en tareas aritméticas simples como la suma sigue siendo un desafío. Incluso con una mejora modesta de GPT-4 en el conjunto de datos MATH, los errores se deben en gran medida a errores aritméticos y de cálculo. Por lo tanto, una pregunta importante es si los LLMs son capaces de razonamiento algorítmico, que implica resolver una tarea aplicando un conjunto de reglas abstractas que definen el algoritmo.
En “Enseñanza del razonamiento algorítmico a través del aprendizaje en contexto”, describimos un enfoque que aprovecha el aprendizaje en contexto para habilitar capacidades de razonamiento algorítmico en LLMs. El aprendizaje en contexto se refiere a la capacidad de un modelo para realizar una tarea después de ver algunos ejemplos de ella dentro del contexto del modelo. La tarea se especifica al modelo utilizando una indicación, sin necesidad de actualizaciones de peso. También presentamos una novedosa técnica de indicación algorítmica que permite que los modelos de lenguaje de propósito general logren una generalización sólida en problemas aritméticos que son más difíciles que los vistos en la indicación. Por último, demostramos que un modelo puede ejecutar de manera confiable algoritmos en ejemplos fuera de la distribución con una elección adecuada de la estrategia de indicación.
![]() |
Al proporcionar indicaciones algorítmicas, podemos enseñar a un modelo las reglas de la aritmética a través del aprendizaje en contexto. En este ejemplo, el LLM (predictor de palabras) genera la respuesta correcta cuando se le indica una pregunta de suma fácil (por ejemplo, 267+197), pero falla cuando se le hace una pregunta de suma similar con dígitos más largos. Sin embargo, cuando la pregunta más difícil se complementa con una indicación algorítmica para la suma (recuadro azul con el signo + blanco que aparece debajo del predictor de palabras), el modelo es capaz de responder correctamente. Además, el modelo es capaz de simular el algoritmo de multiplicación (X) mediante la composición de una serie de cálculos de suma. |
Enseñar un algoritmo como una habilidad
Para enseñar a un modelo un algoritmo como una habilidad, desarrollamos la indicación algorítmica, que se basa en otros enfoques razonados (por ejemplo, cuaderno de borrador y cadena de pensamiento). La indicación algorítmica extrae habilidades de razonamiento algorítmico de los LLMs y tiene dos distinciones notables en comparación con otros enfoques de indicación: (1) resuelve tareas produciendo los pasos necesarios para una solución algorítmica, y (2) explica cada paso algorítmico con suficiente detalle para evitar cualquier posibilidad de interpretación errónea por parte del LLM.
- Los conflictos de agendas dificultan los esfuerzos de moderación de...
- Hacer borroso la pantalla de tu teléfono podría detener el espionaje
- Dispositivo de seguimiento de pastillas de un adolescente atrae int...
Para tener una idea de la indicación algorítmica, consideremos la tarea de suma de dos números. En una indicación estilo cuaderno de borrador, procesamos cada dígito de derecha a izquierda y llevamos un registro del valor de acarreo (es decir, sumamos 1 al siguiente dígito si el dígito actual es mayor que 9) en cada paso. Sin embargo, la regla del acarreo es ambigua después de ver solo algunos ejemplos de valores de acarreo. Descubrimos que incluir ecuaciones explícitas para describir la regla del acarreo ayuda al modelo a enfocarse en los detalles relevantes e interpretar la indicación de manera más precisa. Utilizamos esta idea para desarrollar una indicación algorítmica para la suma de dos números, donde proporcionamos ecuaciones explícitas para cada paso de cálculo y describimos varias operaciones de indexación en formatos no ambiguos.
![]() |
Ilustración de varias estrategias de indicación para la suma. |
Utilizando solo tres ejemplos de indicación de suma con una longitud de respuesta de hasta cinco dígitos, evaluamos el rendimiento en sumas de hasta 19 dígitos. La precisión se mide en 2,000 ejemplos totales seleccionados de manera uniforme a lo largo de la longitud de la respuesta. Como se muestra a continuación, el uso de indicaciones algorítmicas mantiene una alta precisión para preguntas significativamente más largas que las que se ven en la indicación, lo que demuestra que el modelo resuelve la tarea ejecutando un algoritmo independiente de la entrada.
![]() |
Precisión de prueba en preguntas de suma de longitud creciente para diferentes métodos de indicación. |
Aprovechando habilidades algorítmicas como herramienta
Para evaluar si el modelo puede aprovechar el razonamiento algorítmico en un proceso de razonamiento más amplio, evaluamos el rendimiento utilizando problemas de matemáticas de escuela primaria (GSM8k). Específicamente, intentamos reemplazar los cálculos de suma de GSM8k con una solución algorítmica.
Motivados por las limitaciones de longitud del contexto y la posible interferencia entre diferentes algoritmos, exploramos una estrategia en la que los modelos con diferentes indicaciones interactúan entre sí para resolver tareas complejas. En el contexto de GSM8k, tenemos un modelo especializado en razonamiento matemático informal utilizando indicaciones de cadena de pensamiento, y un segundo modelo especializado en suma utilizando indicaciones algorítmicas. El modelo de razonamiento matemático informal se indica para generar tokens especializados para llamar al modelo de suma y realizar los pasos aritméticos. Extraemos las consultas entre tokens, las enviamos al modelo de suma y devolvemos la respuesta al primer modelo, después de lo cual el primer modelo continúa su salida. Evaluamos nuestro enfoque utilizando un problema difícil del GSM8k (GSM8k-Difícil), donde seleccionamos aleatoriamente 50 preguntas de solo suma y aumentamos los valores numéricos en las preguntas.
![]() |
Un ejemplo del conjunto de datos GSM8k-Difícil. La indicación de cadena de pensamiento se ha ampliado con corchetes para indicar cuándo debe realizarse una llamada algorítmica. |
Descubrimos que utilizar contextos y modelos separados con indicaciones especializadas es una forma efectiva de abordar GSM8k-Hard. A continuación, observamos que el rendimiento del modelo con llamada algorítmica para la adición es 2,3 veces superior a la línea de base de la cadena de pensamiento. Finalmente, esta estrategia presenta un ejemplo de resolución de tareas complejas facilitando las interacciones entre LLMs especializados en diferentes habilidades a través del aprendizaje en contexto.
![]() |
Rendimiento de la cadena de pensamiento (CoT) en GSM8k-Hard con o sin llamada algorítmica. |
Conclusión
Presentamos un enfoque que aprovecha el aprendizaje en contexto y una técnica de indicación algorítmica novedosa para desbloquear las habilidades de razonamiento algorítmico en LLMs. Nuestros resultados sugieren que podría ser posible transformar un contexto más largo en un mejor rendimiento de razonamiento proporcionando explicaciones más detalladas. Por lo tanto, estos hallazgos apuntan a la capacidad de utilizar o simular contextos largos y generar explicaciones más informativas como direcciones de investigación prometedoras.
Agradecimientos
Agradecemos a nuestros coautores Behnam Neyshabur, Azade Nova, Hugo Larochelle y Aaron Courville por sus valiosas contribuciones al artículo y sus excelentes comentarios sobre el blog. Agradecemos a Tom Small por crear las animaciones en esta publicación. Este trabajo se realizó durante la pasantía de Hattie Zhou en Google Research.