Google AI ha puesto en código abierto Flan-T5 Un modelo de lenguaje basado en transformadores que utiliza un enfoque de texto a texto para tareas de procesamiento del lenguaje natural (NLP).

Google AI ha lanzado Flan-T5, un modelo de lenguaje basado en transformadores de código abierto que utiliza un enfoque de texto a texto para tareas de procesamiento del lenguaje natural (NLP).

Los modelos de lenguaje grandes, como PaLM, Chinchilla y ChatGPT, han abierto nuevas posibilidades para realizar tareas de procesamiento de lenguaje natural (NLP) a partir de la lectura de indicaciones instructivas. El estado del arte ha demostrado que la sintonización de instrucciones, que implica el ajuste fino de los modelos de lenguaje en varias tareas de NLP organizadas con instrucciones, mejora aún más la capacidad de los modelos de lenguaje para llevar a cabo una tarea desconocida dada una instrucción. Comparando sus procedimientos y estrategias de ajuste fino, se evalúan los enfoques y resultados de las iniciativas de generalización de instrucciones de código abierto en este artículo.

Este trabajo se centra en los detalles de los métodos de ajuste de instrucciones, abordando factores individuales y comparándolos directamente. Se identifican y evalúan las mejoras metodológicas críticas en la “Colección Flan 2022”, que es el término que se utiliza para la recopilación de datos y los métodos que se aplican a los datos y al proceso de ajuste de instrucciones que se centra en los resultados emergentes y de última generación de la combinación de Flan 2022 con PaLM 540B. La Colección Flan 2022 contiene la colección más completa de trabajos y técnicas para la personalización de instrucciones actualmente disponibles públicamente. Se ha mejorado con miles de plantillas premium y mejores patrones de formato.

Se demuestra que, en todos los benchmarks de evaluación evaluados, un modelo entrenado con esta colección supera a otras colecciones públicas, incluyendo la Flan 2021 original, la suya, la T0++, la suya, las instrucciones sobrenaturales, las suyas, y el trabajo contemporáneo sobre OPT-IML, las suyas. Esto incluye, para modelos de tamaño idéntico, mejoras de más del 4.2% y el 8.5% en los benchmarks de evaluación MMLU y BIG-Bench Hard. Según un análisis del enfoque Flan 2022, los resultados sólidos se deben a la colección más grande y variada de tareas y a varias estrategias sencillas para el ajuste fino y la mejora de datos. En particular, el entrenamiento en diversas instancias con plantillas de comandos de cero disparo, pocos disparos y cadena de pensamiento mejora el rendimiento en todos estos contextos.

Por ejemplo, un aumento del 10% en los comandos de pocos disparos mejora los resultados de los comandos de cero disparo en un 2% o más. Además, se ha demostrado que equilibrar las fuentes de tareas y mejorar la variedad de tareas mediante la inversión de las parejas de entrada-salida, como se hace en, son ambos fundamentales para el rendimiento. En el ajuste fino de una sola tarea, el modelo resultante Flan-T5 converge más rápido y tiene un mejor rendimiento que los modelos T5, lo que indica que los modelos ajustados a instrucciones proporcionan un punto de partida computacionalmente más efectivo para aplicaciones posteriores. Se espera que poner estos resultados y herramientas a disposición del público agilice los recursos disponibles para la adaptación de instrucciones y acelere el desarrollo de modelos de lenguaje más generales.

Las principales contribuciones de este estudio se enumeran a continuación: • Metodológicas: Demuestran que el entrenamiento con una combinación de indicaciones de cero y pocos disparos produce resultados significativamente superiores en ambos entornos. • Medición y demostración de los métodos clave para el ajuste eficiente de instrucciones, incluyendo la escala de la Sección 3.3, la mejora de la diversidad de tareas mediante la inversión de la entrada, la adición de datos de entrenamiento de cadena de pensamiento y el equilibrio de diversas fuentes de datos. • Resultados: Estas decisiones técnicas mejoran el rendimiento de tareas ocultas en un 3-17% en comparación con las colecciones de ajuste de instrucciones de código abierto disponibles • Conclusiones: Flan-T5 XL proporciona un punto de partida computacional más sólido y efectivo para el ajuste fino de una sola tarea. • Poner a disposición del público la nueva colección de tareas Flan 2022, las plantillas y las metodologías de investigación. El código fuente está disponible en GitHub.