La afinación de símbolos mejora el aprendizaje en contexto en los modelos de lenguaje
Afinación de símbolos mejora aprendizaje en contexto en modelos de lenguaje
Publicado por Jerry Wei, Investigador Estudiantil, y Denny Zhou, Científico Principal, Investigación de Google
Una característica clave de la inteligencia humana es que los humanos pueden aprender a realizar nuevas tareas razonando solo con unos pocos ejemplos. La ampliación de los modelos de lenguaje ha desbloqueado una variedad de nuevas aplicaciones y paradigmas en el aprendizaje automático, incluida la capacidad de realizar tareas de razonamiento desafiantes a través del aprendizaje en contexto. Sin embargo, los modelos de lenguaje siguen siendo sensibles a la forma en que se dan las indicaciones, lo que indica que no razonan de manera robusta. Por ejemplo, los modelos de lenguaje a menudo requieren una ingeniería pesada de indicaciones o tareas de redacción de instrucciones, y muestran comportamientos inesperados, como el rendimiento en tareas que no se ve afectado incluso cuando se muestran etiquetas incorrectas.
En “La sintonización de símbolos mejora el aprendizaje en contexto en los modelos de lenguaje”, proponemos un procedimiento simple de ajuste fino que llamamos sintonización de símbolos, que puede mejorar el aprendizaje en contexto al enfatizar las correspondencias entre la entrada y las etiquetas. Experimentamos con la sintonización de símbolos en modelos Flan-PaLM y observamos beneficios en diferentes configuraciones.
- La sintonización de símbolos mejora el rendimiento en tareas de aprendizaje en contexto invisibles y es mucho más robusta frente a indicaciones poco especificadas, como aquellas sin instrucciones o sin etiquetas en lenguaje natural.
- Los modelos ajustados con símbolos son mucho más fuertes en tareas de razonamiento algorítmico.
- Finalmente, los modelos ajustados con símbolos muestran grandes mejoras al seguir etiquetas invertidas presentadas en contexto, lo que significa que son más capaces de utilizar la información en contexto para anular el conocimiento previo.
![]() |
Una descripción general de la sintonización de símbolos, donde los modelos se ajustan finamente en tareas donde las etiquetas en lenguaje natural se reemplazan por símbolos arbitrarios. La sintonización de símbolos se basa en la intuición de que cuando no se dispone de instrucciones y etiquetas relevantes, los modelos deben utilizar ejemplos en contexto para aprender la tarea. |
Motivación
La sintonización de instrucciones es un método común de ajuste fino que se ha demostrado que mejora el rendimiento y permite que los modelos sigan mejor los ejemplos en contexto. Sin embargo, una limitación es que los modelos no están obligados a aprender a utilizar los ejemplos porque la tarea se define de manera redundante en el ejemplo de evaluación a través de instrucciones y etiquetas en lenguaje natural. Por ejemplo, en la figura de arriba a la izquierda, aunque los ejemplos pueden ayudar al modelo a comprender la tarea (análisis de sentimientos), no son estrictamente necesarios ya que el modelo podría ignorar los ejemplos y simplemente leer la instrucción que indica cuál es la tarea.
En la sintonización de símbolos, el modelo se ajusta finamente en ejemplos donde se eliminan las instrucciones y las etiquetas en lenguaje natural se reemplazan por etiquetas no relacionadas semánticamente (por ejemplo, “Foo”, “Bar”, etc.). En esta configuración, la tarea no está clara sin mirar los ejemplos en contexto. Por ejemplo, en la figura de arriba a la derecha, se necesitarían varios ejemplos en contexto para comprender la tarea. Debido a que la sintonización de símbolos enseña al modelo a razonar sobre los ejemplos en contexto, los modelos ajustados con símbolos deberían tener un mejor rendimiento en tareas que requieren razonamiento entre ejemplos en contexto y sus etiquetas.
- Google enfrenta una demanda alegando mal uso de datos para entrenar...
- Aquí está cómo San José planea utilizar la inteligencia artificial ...
- Segmenta cualquier cosa, ¡pero más rápido! Este enfoque de IA acele...
![]() |
Conjuntos de datos y tipos de tareas utilizados para la sintonización de símbolos. |
Procedimiento de ajuste de símbolos
Seleccionamos 22 conjuntos de datos de procesamiento del lenguaje natural (NLP) disponibles públicamente que utilizamos para nuestro procedimiento de ajuste de símbolos. Estas tareas han sido ampliamente utilizadas en el pasado, y solo elegimos tareas de tipo clasificación ya que nuestro método requiere etiquetas discretas. Luego, remapeamos las etiquetas a una etiqueta aleatoria de un conjunto de ~30K etiquetas arbitrarias seleccionadas de una de tres categorías: enteros, combinaciones de caracteres y palabras.
Para nuestros experimentos, ajustamos los símbolos de Flan-PaLM, las variantes ajustadas de PaLM. Utilizamos tres tamaños diferentes de modelos de Flan-PaLM: Flan-PaLM-8B, Flan-PaLM-62B y Flan-PaLM-540B. También probamos Flan-cont-PaLM-62B (Flan-PaLM-62B con 1.3T tokens en lugar de 780B tokens), que abreviamos como 62B-c.
![]() |
Utilizamos un conjunto de símbolos arbitrarios de ~300K de tres categorías (enteros, combinaciones de caracteres y palabras). Se utilizan ~30K símbolos durante el ajuste y el resto se reservan para la evaluación. |
Configuración experimental
Queremos evaluar la capacidad de un modelo para realizar tareas no vistas, por lo que no podemos evaluar en tareas utilizadas en el ajuste de símbolos (22 conjuntos de datos) o utilizadas durante el ajuste de instrucciones (1.8K tareas). Por lo tanto, elegimos 11 conjuntos de datos de NLP que no se utilizaron durante el ajuste fino.
Aprendizaje en contexto
En el procedimiento de ajuste de símbolos, los modelos deben aprender a razonar con ejemplos en contexto para realizar con éxito las tareas, ya que las indicaciones se modifican para asegurarse de que las tareas no se puedan aprender simplemente a partir de etiquetas o instrucciones relevantes. Los modelos ajustados con símbolos deberían tener un mejor rendimiento en entornos donde las tareas no están claras y requieren razonamiento entre ejemplos en contexto y sus etiquetas. Para explorar estos entornos, definimos cuatro configuraciones de aprendizaje en contexto que varían la cantidad de razonamiento requerido entre las entradas y las etiquetas para aprender la tarea (según la disponibilidad de instrucciones/etiquetas relevantes en lenguaje natural).
![]() |
Dependiendo de la disponibilidad de instrucciones y etiquetas de lenguaje natural relevantes, los modelos pueden necesitar hacer diferentes cantidades de razonamiento con ejemplos en contexto. Cuando estas características no están disponibles, los modelos deben razonar con los ejemplos en contexto dados para realizar con éxito la tarea. |
El ajuste de símbolos mejora el rendimiento en todas las configuraciones para modelos de 62B y más grandes, con pequeñas mejoras en configuraciones con etiquetas de lenguaje natural relevantes (+0.8% a +4.2%) y mejoras sustanciales en configuraciones sin etiquetas de lenguaje natural relevantes (+5.5% a +15.5%). Sorprendentemente, cuando las etiquetas relevantes no están disponibles, Flan-PaLM-8B ajustado con símbolos supera a Flan-PaLM-62B, y Flan-PaLM-62B ajustado con símbolos supera a Flan-PaLM-540B. Esta diferencia de rendimiento sugiere que el ajuste de símbolos puede permitir que modelos mucho más pequeños tengan un rendimiento igual de bueno que los modelos grandes en estas tareas (ahorrando efectivamente ∼10 veces el cálculo de inferencia).
![]() |
Los modelos ajustados con símbolos lo suficientemente grandes son mejores en el aprendizaje en contexto que los baselines, especialmente en configuraciones donde no están disponibles las etiquetas relevantes. El rendimiento se muestra como la precisión promedio del modelo (%) en once tareas. |
Razonamiento algorítmico
También experimentamos con tareas de razonamiento algorítmico de BIG-Bench. Hay dos grupos principales de tareas: 1) Funciones de listas: identificar una función de transformación (por ejemplo, eliminar el último elemento en una lista) entre listas de entrada y salida que contienen enteros no negativos; y 2) conceptos de Turing simples: razonar con cadenas binarias para aprender el concepto que asigna una entrada a una salida (por ejemplo, intercambiar 0s y 1s en una cadena).
En las tareas de funciones de listas y conceptos de Turing simples, el ajuste de símbolos resulta en una mejora promedio de rendimiento del 18.2% y 15.3%, respectivamente. Además, Flan-cont-PaLM-62B con ajuste de símbolos supera a Flan-PaLM-540B en las tareas de funciones de listas en promedio, lo que equivale a una reducción de ∼10 veces en la computación de inferencia. Estas mejoras sugieren que el ajuste de símbolos fortalece la capacidad del modelo para aprender en contexto para tipos de tareas no vistas, ya que el ajuste de símbolos no incluyó ningún dato algorítmico.
![]() |
Los modelos ajustados con símbolos obtienen un rendimiento superior en las tareas de funciones de listas y conceptos de Turing simples. (A-E): categorías de tareas de funciones de listas. (F): tarea de conceptos de Turing simples. |
Etiquetas invertidas
En el experimento de etiquetas invertidas, se invierten las etiquetas de los ejemplos en contexto y de evaluación, lo que significa que el conocimiento previo y las asignaciones de etiquetas de entrada no están de acuerdo (por ejemplo, frases que contienen sentimiento positivo etiquetadas como “sentimiento negativo”), lo que nos permite estudiar si los modelos pueden anular el conocimiento previo. Trabajos anteriores han demostrado que si bien los modelos pre-entrenados (sin ajuste de instrucciones) pueden, hasta cierto punto, seguir las etiquetas invertidas presentadas en contexto, el ajuste de instrucciones degrada esta capacidad.
Vemos que hay una tendencia similar en todos los tamaños de modelos: los modelos ajustados con símbolos son mucho más capaces de seguir etiquetas invertidas que los modelos ajustados con instrucciones. Descubrimos que después del ajuste de símbolos, Flan-PaLM-8B ve una mejora promedio en todos los conjuntos de datos del 26.5%, Flan-PaLM-62B ve una mejora del 33.7% y Flan-PaLM-540B ve una mejora del 34.0%. Además, los modelos ajustados con símbolos logran un rendimiento similar o mejor que los modelos solo de pre-entrenamiento.
![]() |
Los modelos ajustados con símbolos son mucho mejores para seguir etiquetas invertidas presentadas en contexto que los modelos ajustados con instrucciones. |
Conclusion
Presentamos el ajuste de símbolos, un nuevo método para ajustar modelos en tareas donde las etiquetas de lenguaje natural se vuelven a asignar a símbolos arbitrarios. El ajuste de símbolos se basa en la intuición de que cuando los modelos no pueden utilizar instrucciones o etiquetas relevantes para determinar una tarea presentada, deben aprender a partir de ejemplos en contexto. Ajustamos cuatro modelos de lenguaje utilizando nuestro procedimiento de ajuste de símbolos, utilizando una mezcla de ajuste de 22 conjuntos de datos y aproximadamente 30K símbolos arbitrarios como etiquetas.
Primero mostramos que el ajuste de símbolos mejora el rendimiento en tareas de aprendizaje en contexto no vistas, especialmente cuando las instrucciones no contienen instrucciones o etiquetas relevantes. También encontramos que los modelos ajustados de símbolos eran mucho mejores en tareas de razonamiento algorítmico, a pesar de la falta de datos numéricos o algorítmicos en el procedimiento de ajuste de símbolos. Por último, en un entorno de aprendizaje en contexto donde las entradas tienen etiquetas invertidas, el ajuste de símbolos (para algunos conjuntos de datos) restaura la capacidad de seguir etiquetas invertidas que se perdió durante el ajuste de instrucciones.
Trabajo futuro
A través del ajuste de símbolos, buscamos aumentar el grado en que los modelos pueden examinar y aprender de las asignaciones de entrada-etiqueta durante el aprendizaje en contexto. Esperamos que nuestros resultados fomenten un mayor trabajo para mejorar la capacidad de los modelos de lenguaje para razonar sobre los símbolos presentados en contexto.
Agradecimientos
Los autores de esta publicación ahora forman parte de Google DeepMind. Este trabajo fue realizado por Jerry Wei, Le Hou, Andrew Lampinen, Xiangning Chen, Da Huang, Yi Tay, Xinyun Chen, Yifeng Lu, Denny Zhou, Tengyu Ma y Quoc V. Le. Nos gustaría agradecer a nuestros colegas de Google Research y Google DeepMind por sus consejos y útiles discusiones.