Esta investigación de Inteligencia Artificial confirma que los modelos de lenguaje basados en Transformadores de gran tamaño son universalmente computacionales cuando se les añade una memoria externa.
This AI research confirms that large-scale Transformer-based language models are universally computable when an external memory is added.
Los resultados notables alcanzados por modelos basados en transformadores como GPT-2 y GPT-3 gravitaron a la comunidad de investigación hacia la exploración de modelos de lenguaje grandes (LLMs). Además, el éxito y la popularidad recientes de ChatGPT solo han servido para aumentar el interés de las personas en los LLMs. El aprendizaje en contexto y la generación de ideas en cadena son otros dos descubrimientos importantes que han mejorado significativamente la precisión de los modelos. Estos descubrimientos van más allá de una simple pregunta y respuesta, donde una entrada que contiene una pregunta se utiliza para generar una respuesta razonable.
Aunque estas tácticas de generación han sido efectivas para mejorar el rendimiento, los LLMs actuales basados en transformadores solo pueden condicionar una longitud fija de cadena de entrada, lo que limita las computaciones que pueden representar. Esto también se puede entender como que cualquier modelo de lenguaje determinista que depende de cadenas de longitud finita está limitado computacionalmente, ya que el modelo es equivalente a un autómata finito. Para contrarrestar esto, los investigadores han investigado la posibilidad de agregar un bucle de retroalimentación externo a los LLMs, donde las salidas del modelo se suministran como entradas después de algún procesamiento posterior. Sin embargo, la cuestión de si este método amplía sustancialmente el conjunto de computaciones de un modelo aún está abierta.
Google Brain e investigadores de la Universidad de Alberta trabajaron juntos para abordar este problema. Agregaron una memoria de lectura-escritura externa a un LLM para verificar que pudiera emular cualquier algoritmo en cualquier entrada. Su investigación se resume en el artículo “Memory Augmented Large Language Models are Computationally Universal”, que muestra cómo un LLM mejorado con una memoria de lectura-escritura asociativa es computacionalmente universal.
El Flan-U-PaLM 540B fue el LLM elegido por los investigadores. La idea subyacente detrás de la investigación es utilizar una computadora simple de instrucciones almacenadas para vincular el LLM y la memoria asociativa. Esto hace posible que las salidas y las entradas que se deben enviar al modelo de lenguaje interactúen en un bucle. La memoria asociativa externa se puede considerar un diccionario, donde los pares clave-valor son nombres de variables/direcciones de memoria y valores. El modelo de lenguaje y la memoria utilizan coincidencias de expresiones regulares para realizar cada paso de análisis sintáctico.
- Eleuther AI Research Group demuestra cómo se puede utilizar la guía...
- Investigadores de CMU presentan FROMAGe Un modelo de IA que inicia ...
- Investigadores logran un avance en la computación cuántica con un g...
Luego se desarrolla un “programa de instrucciones” único para dirigir el sistema a simular la ejecución de una máquina de Turing universal después de establecer una computadora de instrucciones almacenadas. Al final, demostrar la confiabilidad de la simulación se reduce a examinar un número limitado de patrones de entrada-salida y confirmar que el modelo de lenguaje genera la salida adecuada para cada conjunto finito de posibles cadenas de entrada. El hecho de que este estudio no implique ningún “entrenamiento” adicional del modelo de lenguaje o alteración de sus pesos pre-entrenados es una de las principales fortalezas del trabajo. En cambio, la construcción depende exclusivamente de crear un tipo de computadora de instrucciones almacenadas que luego se puede programar con ciertos comandos.
A diferencia de investigaciones anteriores en este campo que exploran la universalidad computacional de los modelos, este estudio es distintivo. La principal diferencia es que los investigadores mostraron cómo la ampliación de la memoria externa puede provocar un comportamiento computacional universal utilizando un modelo de lenguaje fijo con pesos pre-entrenados fijos. Los resultados demuestran que los grandes modelos de lenguaje ya son computacionalmente universales tal como existen actualmente, siempre y cuando tengan acceso a una memoria externa infinita.