Conoce a YaRN Un método eficiente en cómputo para extender la ventana de contexto de los modelos de lenguaje basados en transformadores, que requiere 10 veces menos tokens y 2.5 veces menos pasos de entrenamiento que los métodos anteriores.
Conoce a YaRN, un método eficiente en cómputo para extender la ventana de contexto de los modelos de lenguaje basados en transformadores, que requiere menos tokens y menos pasos de entrenamiento que los métodos anteriores.
Los modelos de lenguaje grandes como chat GPT pueden considerar un contexto más amplio en el texto, lo que les permite comprender y generar respuestas más coherentes y contextualmente relevantes. Esto es especialmente útil en tareas como la completación de texto, donde comprender todo el contexto de un documento es crucial.
Estos modelos pueden capturar relaciones y dependencias complejas dentro de un documento, incluso si abarcan muchos tokens. La extensión de la ventana de contexto en el contexto de modelos de lenguaje grandes como GPT-3 o GPT-4 se refiere al ámbito de texto o tokens que el modelo considera al generar o comprender el lenguaje. Esto es valioso para tareas como la sumarización de documentos, donde el resumen debe basarse en una comprensión integral del documento.
La incrustación de posición rotatoria (RoPE) mejora la capacidad de los modelos para manejar datos secuenciales y capturar información posicional dentro de las secuencias. Sin embargo, estos modelos deben generalizar más allá de la longitud de secuencia en la que fueron entrenados. Investigadores de Nous Research, Eleuther AI y la Universidad de Ginebra presentan YaRN (Yet another RoPE extension method), que puede calcular formas eficientes de extender la ventana de contexto de dichos modelos.
RoPE utiliza rotaciones de números complejos, una incrustación de posición rotatoria que permite al modelo codificar eficazmente la información posicional sin depender únicamente de incrustaciones posicionales fijas. Esto ayudará al modelo a capturar dependencias a larga distancia de manera más precisa. Los parámetros que controlan las rotaciones se aprenden durante el proceso de entrenamiento del modelo. El modelo puede ajustar de manera adaptativa las rotaciones para capturar las relaciones posicionales entre los tokens de la mejor manera.
- Un análisis de los principales canales de YouTube de tecnología con...
- Tu propio ChatGPT personal
- Python Calculando integrales de la manera correcta
El método que siguieron fueron los transformadores compresivos, que utilizan mecanismos de memoria externa para extender la ventana de contexto. Almacenan y recuperan información de un banco de memoria externa, lo que les permite acceder a un contexto más allá de su tamaño de ventana estándar. Se han desarrollado extensiones de la arquitectura del transformador para incluir componentes de memoria, lo que permite al modelo retener y utilizar información de tokens o ejemplos pasados.
Sus experimentos muestran que YaRN logra con éxito la extensión de la ventana de contexto de LLMs con solo 400 pasos de entrenamiento, que es el 0,1% del corpus de pre-entrenamiento original del modelo, una reducción de 10 veces desde 25 y una reducción de 2,5 veces en los pasos de entrenamiento desde 7. Esto lo hace altamente eficiente en términos de cómputo para el entrenamiento sin costos adicionales de inferencia.
En general, YaRN mejora todos los métodos de interpolación de RoPE existentes y reemplaza a PI sin desventajas y con un esfuerzo de implementación mínimo. Los modelos ajustados finamente conservan sus habilidades originales en múltiples puntos de referencia al tiempo que pueden atender a un tamaño de contexto muy grande. El trabajo de investigación futuro puede involucrar la ampliación de memoria, que se puede combinar con modelos tradicionales de procesamiento del lenguaje natural. Un modelo basado en transformadores puede incorporar bancos de memoria externos para almacenar información contextualmente relevante para tareas posteriores como preguntas y respuestas o traducción automática.