Investigadores de Microsoft y UC Santa Barbara proponen LONGMEM un marco de inteligencia artificial que permite a los LLMs memorizar largas historias.
Microsoft and UC Santa Barbara researchers propose LONGMEM, an AI framework that allows LLMs to memorize long histories.
Los grandes modelos de lenguaje (LLMs) han mejorado enormemente el estado del arte en diversas tareas de comprensión y generación, revolucionando el procesamiento del lenguaje natural. La mayoría de los LLMs se benefician del entrenamiento auto-supervisado sobre enormes corpora, recolectando información de un contexto local de tamaño fijo y mostrando habilidades emergentes, incluyendo la generación de texto sin entrenamiento previo, el aprendizaje en contexto y el razonamiento de Cadena de Pensamiento (CoT). La restricción de longitud de entrada de los LLMs actuales les impide generalizar a aplicaciones del mundo real, como la planificación horizontal extendida, donde la capacidad de manejar material de larga duración más allá de una sesión de tamaño fijo es crucial.
La solución más simple al problema de la limitación de longitud es simplemente aumentar la longitud del contexto de entrada. Para una mejor interdependencia a larga distancia, por ejemplo, GPT-3 aumenta la longitud de entrada de 1k de GPT-2 a 2k tokens. Sin embargo, la atención densa en contexto está severamente limitada por la complejidad de computación cuadrática de la auto-atención Transformer, y esta técnica a menudo requiere un entrenamiento computacionalmente extenso desde el principio. Otra área de investigación nueva, que todavía requiere principalmente entrenamiento desde el principio, se centra en crear una atención dispersa en contexto para evitar el costo cuadrático de la auto-atención.
Aunque Memorising Transformer (MemTRM) es un estudio bien conocido, aproxima la atención escasa en contexto a través de la atención densa tanto a los tokens en contexto como a los tokens memorizados recuperados de una memoria no diferenciable para Transformers. MemTRM presenta beneficios significativos de perplejidad al modelar grandes libros o documentos al escalar el modelo de lenguaje resultante para manejar hasta 65k tokens. El enfoque de memoria vinculada de MemTRM, que utiliza un solo modelo para codificar y fusionar la memoria para el modelado del lenguaje, presenta la dificultad de la obsolescencia de la memoria durante el entrenamiento. En otras palabras, las representaciones en caché anteriores en la memoria pueden tener cambios distribucionales respecto a las del modelo más reciente cuando se cambian los parámetros del modelo, lo que reduce el uso del aumento de memoria.
En este artículo, los autores de UCSB y Microsoft Research proponen el marco LONGMEM, que permite a los modelos de lenguaje almacenar en caché el contexto o conocimiento previo de larga duración en el banco de memoria no diferenciable y aprovecharlos a través de un módulo de memoria desacoplado para abordar el problema de la obsolescencia de la memoria. Crean una red residual revolucionaria (SideNet) para lograr la memoria desacoplada. Se utiliza una LLM de columna vertebral congelada para extraer las claves y valores de atención emparejados del contexto anterior en el banco de memoria. La consulta de atención resultante de la entrada actual se utiliza en la capa con aumento de memoria de SideNet para acceder a los valores y claves almacenados en caché para contextos anteriores. Las fusiones de memoria asociadas se fusionan en los estados ocultos de aprendizaje a través de un proceso de atención conjunta.
- Investigadores de UC Berkeley y Google presentan un marco de inteli...
- Un equipo de investigación de Google, Cornell y UC Berkeley present...
- Investigadores de Harvard Introducen Intervención en Tiempo de Infe...
La transferencia de conocimiento mejorada desde la LLM de columna vertebral pre-entrenada es posible gracias a las nuevas conexiones residuales cruzadas entre SideNet y la LLM de columna vertebral congelada. La LLM pre-entrenada se puede modificar para utilizar la memoria contextual de larga duración mediante el entrenamiento repetido de SideNet residual para extraer y fusionar la memoria de contexto largo con aumento. Hay dos ventajas principales en su sistema de memoria desacoplada. En primer lugar, la LLM congelada de columna vertebral desacoplada y SideNet en su arquitectura propuesta aíslan la recuperación y fusión de memoria de la codificación de entradas previas en memoria.
Esto aborda eficientemente el problema de la obsolescencia de la memoria ya que la LLM de columna vertebral solo sirve como codificador de conocimiento de contexto largo. En contraste, SideNet residual sirve como recuperador y lector de memoria. En segundo lugar, es ineficiente computacionalmente y sufre de un olvido catastrófico cambiar la LLM con aumentos de memoria directamente. Además de poder acceder al conocimiento que se aprendió anteriormente, LONGMEM también puede evitar el olvido devastador ya que la LLM de columna vertebral está congelada durante toda la etapa de adaptación efectiva con aumento de memoria. Dependiendo de las actividades posteriores, LONGMEM puede ingresar diferentes tipos de texto e información de larga duración en el banco de memoria.
Se centran en dos instancias ilustrativas: el aprendizaje en contexto con aumento de memoria con miles de ejemplos de demostración relevantes para la tarea y el modelado de lenguaje con contextos de libro de longitud completa. Evalúan qué tan bien funciona el LONGMEM propuesto en varias tareas de modelado de lenguaje de texto largo y aprendizaje en contexto con aumento de memoria para la comprensión del lenguaje. Según los hallazgos experimentales, su modelo supera regularmente a las líneas de base sólidas en cuanto a su capacidad para el modelado de texto largo y el aprendizaje en contexto. Su enfoque aumenta significativamente la capacidad de LLM para representar el lenguaje de contexto largo en -1,38 ~ -1,62 perplejidad en varias divisiones de longitud del corpus Gutenberg-2022.
Sorprendentemente, su modelo supera ampliamente las líneas de base actuales de x-former para lograr un rendimiento estatal de última generación del 40,5% de precisión de identificación en ChapterBreak, un difícil punto de referencia de modelado de contexto largo. Por último, en comparación con MemTRM y las líneas de base sin mejora de memoria, LONGMEM muestra fuertes beneficios de aprendizaje en contexto en tareas comunes de NLU.