Un nuevo estudio de la Universidad de Wisconsin investiga cómo los pequeños transformadores entrenados desde una inicialización aleatoria pueden aprender eficientemente operaciones aritméticas utilizando el objetivo de predicción del siguiente token.

Estudio de la Universidad de Wisconsin sobre cómo los pequeños transformadores pueden aprender operaciones aritméticas usando predicción del siguiente token.

Para varias tareas posteriores, incluyendo la traducción de lenguaje y código, el pensamiento compositivo y las operaciones aritméticas fundamentales, modelos de lenguaje grandes como GPT-3/4, PaLM y LaMDA han mostrado características de propósito general, a veces habilidades emergentes. Quizás sorprendentemente, el objetivo de entrenamiento del modelo, que a menudo es una pérdida auto-regresiva basada en la predicción del siguiente token, no codifica directamente estos objetivos. Estas habilidades han sido exploradas en profundidad en estudios anteriores, junto con cómo cambian a medida que aumenta la escala de entrenamiento, el tipo de datos y el tamaño del modelo. Sin embargo, dada la complejidad de los datos y la variedad de trabajos evaluados, todavía es difícil separar los elementos. Salieron a identificar las principales contribuciones que aceleran la aparición de estos talentos porque estaban curiosos acerca de los factores que impulsan estas habilidades en los pronosticadores de tokens siguientes.

Estos factores incluyen el formato y tamaño de los datos, el tamaño del modelo, la existencia de preentrenamiento y el estilo de la solicitud. Su trabajo se realiza en un entorno controlado para permitir un análisis más exhaustivo de estos parámetros. Se centran en enseñar matemáticas a modelos de transformadores pequeños, incluyendo NanoGPT y GPT-2, cuando se entrenan desde el inicio aleatorio. Utilizan la pérdida de predicción de siguiente token auto-regresiva común, escalando desde un modelo con 10.6 millones de parámetros a uno con 124 millones. Los investigadores de UW Madison buscan comprender cómo estos modelos pueden aprender eficazmente operaciones matemáticas fundamentales como la adición, sustracción, multiplicación, raíz cuadrada y seno, dándonos una perspectiva más profunda sobre cómo se despiertan los talentos emergentes. Han detallado sus conclusiones a continuación.

  1. El tamaño de la muestra y el formato de los datos son importantes.

En primer lugar, señalan que enseñarle al modelo la adición utilizando ejemplos típicos de adición, como “A3A2A1 + B3B1B1 = C3C2C1”, no es ideal, ya que obliga al modelo a evaluar el dígito más significativo C3 del resultado primero, lo cual depende de todos los dígitos de los dos sumandos en conjunto. Permiten que el modelo aprenda una función más simple entrenándolo en ejemplos con resultados invertidos, como “A3A2A1 + B3B1B1 = C1C2C3”, lo cual aumenta considerablemente la complejidad de la muestra. Además, mejora el aprendizaje una muestra equilibrada de muchas “variaciones” de adición, dependiendo de los dígitos y acarreo involucrados. Observan cambios de fase abruptos del 0% al 100% de precisión en función de la cantidad de datos de entrenamiento, incluso en este escenario sencillo. Inesperadamente, señalan que completar una matriz de rango bajo es similar a aprender un mapa de adición en n dígitos a partir de muestras aleatorias. Gracias a este vínculo, pueden proporcionar una justificación lógica para tales cambios de fase.

  1. Datos sobre el flujo de cognición durante el entrenamiento.

Basándose en estos hallazgos, investigan las posibles ventajas de los datos de cadena de pensamiento durante el entrenamiento. Este formato permite que el modelo aprenda los elementos distintos de tareas difíciles, ya que comprende operaciones paso a paso y salidas intermedias. Esta estructura se toma directamente de la literatura relevante, como. Según la literatura de ajuste fino de CoT, descubrieron que los datos de entrenamiento de tipo CoT mejoraron considerablemente el aprendizaje en términos de complejidad de muestra y precisión; sin embargo, sus hallazgos siguen siendo válidos incluso en ausencia de preentrenamiento de lenguaje. Hipotetizan que esto se debe a que el modelo puede aprender un mapa de función de mayor dimensión pero más simple descomponiendo la función compositiva necesaria en componentes individuales. Proporcionan ejemplos de cada una de las cuatro técnicas de formato de datos que investigaron en su investigación en la Figura 1.

  1. Entrenamiento con mezclas de texto y matemáticas.

Dado que los LLMs se entrenan en volúmenes enormes de datos descargados de Internet, donde es difícil segregar varias formas de datos de manera limpia, también examinan cómo interactúan los datos de texto y numéricos durante el entrenamiento. Observan cómo la proporción de texto a entrada aritmética afecta la perplejidad y precisión del modelo. Descubren que conocer las operaciones aritméticas previamente cubiertas puede mejorar el rendimiento de cada tarea individualmente y que cambiar de una solicitud sin entrenamiento a una solicitud con entrenamiento aumenta significativamente la precisión. Sin embargo, la precisión es menos apreciable cuando se proporcionan más ejemplos. la importancia del tamaño del modelo y el preentrenamiento.

  1. Papel del preentrenamiento y la escala del modelo.

Además, investigan la función del preentrenamiento mediante el ajuste fino de modelos como GPT-2 y GPT-3 y descubren que si bien el rendimiento sin entrenamiento en operaciones aritméticas es deficiente, las “habilidades” previas desarrolladas durante el preentrenamiento permiten un rendimiento aceptable en algunas tareas aritméticas fundamentales, incluso con un número limitado de muestras de ajuste fino. Sin embargo, cuando el modelo se preentrena en operaciones con formato estándar, el ajuste fino del formato no estándar, como el formato inverso, puede interferir con el rendimiento del modelo y reducir la precisión. Por último, investigan cómo la escala afecta el rendimiento aritmético y descubren que si bien la escala ayuda en el aprendizaje de operaciones aritméticas, no es un requisito previo.

  1. Generalización de longitud y composición.

Uno puede preguntarse si sus modelos entrenados tienen una comprensión sólida de las matemáticas. Su investigación ofrece una respuesta compleja. Encuentran desafiante generalizar la longitud más allá de las longitudes de los dígitos de entrenamiento. Por ejemplo, un modelo encuentra difícil ajustarse y calcular correctamente la longitud de un dígito faltante si se entrena en todas las longitudes de n dígitos pero excluye una longitud en particular. Como resultado, los modelos tienen un buen rendimiento dentro del rango de longitud de dígitos de entrenamiento, pero mucho peor fuera de él. Esto muestra que los modelos aprenden aritmética más como una función de mapeo confinada a las longitudes de dígitos enseñadas en lugar de como un procedimiento flexible. Esto va más allá de la memorización mecánica pero no alcanza una “comprensión” completa de las matemáticas.

  1. Novedad frente a esfuerzos anteriores.

No afirman que su método sea original en cuanto al tipo de datos de entrenamiento que utilizan, sino que se basa fuertemente en trabajos anteriores que emplean datos instructivos para mejorar el rendimiento del modelo. El énfasis principal en modelos inicializados al azar y en investigaciones de ablación en profundidad sobre diversos formatos de muestreo/datos y configuraciones de escala del modelo para separar las variables que conducen a la formación rápida de capacidades aritméticas distingue su trabajo de otras investigaciones en el campo. Además, algunas de las ocurrencias que detectan tienen explicaciones teóricas sencillas pero potencialmente esclarecedoras en su estudio.

Figura 1: Se muestran las cuatro técnicas de formato de datos examinadas en este estudio. Plain: Formato de suma ordinaria; Reverse: La salida está invertida; Simplified Scratchpad: Suma y acarreos dígito por dígito; y Comprehensive Scratchpad: Etapas intermedias de suma completas. Utilizando datos que han sido formateados utilizando estas diversas técnicas de formato de suma, entrenamos modelos de transformador pequeños desde cero. Los resultados (mostrados a la derecha) demuestran la importancia del formato de datos para el rendimiento y la efectividad de las muestras. A medida que aumentamos el grado de información en el formato de datos, Plain nunca alcanza una precisión del 100%, y la complejidad de las muestras para aprender la suma disminuye progresivamente para las otras técnicas.