Google AI presenta Symbol Tuning Un método simple de ajuste fino que puede mejorar el aprendizaje en contexto al enfatizar las correspondencias de entrada-etiqueta.

Google AI presenta Symbol Tuning, un método simple de ajuste fino que mejora el aprendizaje al enfatizar correspondencias de entrada-etiqueta.

Los modelos de lenguaje se ajustan en pares de entrada-etiqueta presentados en un contexto en el que las etiquetas de lenguaje natural se vuelven a asignar a símbolos arbitrarios. Para una tarea dada, el modelo debe depender de las asignaciones de entrada-etiqueta en contexto para el razonamiento y la revelación de la tarea. En un nuevo artículo de investigación, el equipo de IA de Google presenta un procedimiento de afinación simple que mejora significativamente la capacidad del modelo de lenguaje para razonar y aprender a partir de las asignaciones de entrada-etiqueta para una dada en contexto. Lo llaman Afinación de Símbolos. El equipo de investigación utiliza una mezcla de 22 conjuntos de datos de procesamiento del lenguaje natural con varios símbolos arbitrarios como etiquetas y experimentos con múltiples modelos Flan-PaL.

El rendimiento de los modelos base en tareas de aprendizaje en contexto no vistas puede mejorarse mediante la afinación de símbolos. Estos modelos se basan en ejemplos ajustados en los que las etiquetas semánticamente no relacionadas reemplazan a las etiquetas de lenguaje natural. Se requerirían varios ejemplos en contexto para definir la tarea, ya que la tarea no está clara al ver solo un solo ejemplo en contexto. En promedio, la afinación de símbolos produce un rendimiento mejorado del +11,1% en once tareas de evaluación para Flan-cont-PaLM-62B.

Los modelos afinados con símbolos solo incluyen datos de lenguaje natural en lugar de datos numéricos y algorítmicos. Esto hace que estos modelos funcionen mejor en tareas de razonamiento algorítmico. Para verificar esto, los investigadores experimentan con un conjunto de tareas funcionales de listas en las que el modelo necesita identificar una función de transformación entre listas de entrada y salida que contienen enteros no negativos. Utilizan conceptos de Turing simples en los que el modelo utiliza el razonamiento de cadenas binarias para asignar una entrada a una salida. Encuentran que la afinación de símbolos resulta en una mejora promedio en todas las tareas del 18,2% para Flan-PaLM-8B, 11,1% para Flan-PaLM-62B, 15,5% para Flan-cont-PaLM-62B y 3,6% para Flan-PaLM-540B.

En comparación con los modelos ajustados por instrucciones, los modelos ajustados por símbolos son mucho mejores para seguir las etiquetas invertidas presentadas en contexto. El rendimiento de los modelos ajustados por instrucciones está muy por debajo del azar, ya que no pueden invertir las predicciones para seguir las etiquetas invertidas. Por otro lado, la afinación de símbolos obliga a los modelos a considerar la etiqueta presentada en contexto como un símbolo arbitrario. Esto reduce el uso del modelo de conocimientos previos que contradicen las etiquetas invertidas. Los investigadores encuentran que después de la afinación de símbolos, hay una mejora promedio en todos los conjuntos de datos del 26,5% para Flan-PaLM-8B, 33,7% para Flan-PaLM-62B y 34,0% para Flan-PaLM-540B.

Los investigadores afirman que la afinación de símbolos no requiere muchos pasos de afinación para cualquier modelo con conjuntos de datos pequeños. El rendimiento observado se mantiene relativamente constante después de un cambio máximo en el rendimiento en los primeros 1.000 a 2.000 pasos. Dado que el rendimiento se mantiene relativamente constante, se puede hipotetizar que los modelos más grandes requieren un conjunto de datos de afinación de símbolos más diverso o más grande.

Los investigadores encuentran que después de los primeros pasos, las proporciones más altas de datos de afinación de símbolos no afectan el rendimiento del modelo. Como resultado, el modelo tiene éxito en entornos de aprendizaje en contexto. Siempre que se utilicen datos de afinación de símbolos no triviales, la proporción de datos utilizados es irrelevante. El equipo encontró una fuerte correlación entre la mayor mezcla de datos de afinación de símbolos y la probabilidad de que el modelo siga las etiquetas invertidas. Esto mejora la capacidad del modelo para anular los conocimientos previos con ejemplos en contexto. Este método solo tiene éxito si el modelo generaliza su capacidad para nuevas tareas a partir del conjunto diverso de tareas cuando se introduce en el modelo.