Pre-entrenamiento de lenguaje-visual mejorado con recuperación.

Improved language-visual pre-training with retrieval.

Publicado por Ziniu Hu, Investigador Estudiantil, y Alireza Fathi, Científico Investigador, Equipo de Percepción de Google Research

Los modelos a gran escala, como T5, GPT-3, PaLM, Flamingo y PaLI, han demostrado la capacidad de almacenar cantidades sustanciales de conocimientos cuando se escalan a decenas de miles de millones de parámetros y se entrenan en grandes conjuntos de datos de texto e imagen. Estos modelos logran resultados de vanguardia en tareas subyacentes, como la descripción de imágenes, la respuesta a preguntas visuales y el reconocimiento de vocabulario abierto. A pesar de estos logros, estos modelos requieren un volumen masivo de datos para el entrenamiento y terminan con un número tremendo de parámetros (miles de millones en muchos casos), lo que resulta en requisitos computacionales significativos. Además, los datos utilizados para entrenar estos modelos pueden quedar obsoletos, lo que requiere volver a entrenar cada vez que se actualiza el conocimiento del mundo. Por ejemplo, un modelo entrenado hace solo dos años podría proporcionar información obsoleta sobre el presidente actual de los Estados Unidos.

En los campos del procesamiento del lenguaje natural (RETRO, REALM) y la visión por computadora (KAT), los investigadores han intentado abordar estos desafíos utilizando modelos mejorados con recuperación. Por lo general, estos modelos usan una estructura que es capaz de procesar una sola modalidad a la vez, por ejemplo, solo texto o solo imágenes, para codificar y recuperar información de un corpus de conocimiento. Sin embargo, estos modelos mejorados con recuperación no pueden aprovechar todas las modalidades disponibles en una consulta y corpora de conocimiento, y es posible que no encuentren la información que sea más útil para generar la salida del modelo.

Para abordar estos problemas, en “REVEAL: Pre-entrenamiento visual-lingüístico mejorado con recuperación utilizando memoria de conocimiento multimodal de múltiples fuentes”, que aparecerá en CVPR 2023, presentamos un modelo visual-lingüístico que aprende a utilizar una “memoria” multimodal de múltiples fuentes para responder consultas intensivas en conocimiento. REVEAL emplea el aprendizaje de representaciones neuronales para codificar y convertir diversas fuentes de conocimiento en una estructura de memoria que consiste en pares de clave-valor. Las claves sirven como índices para los elementos de memoria, mientras que los valores correspondientes almacenan información pertinente sobre esos elementos. Durante el entrenamiento, REVEAL aprende las incrustaciones de clave, los tokens de valor y la capacidad de recuperar información de esta memoria para abordar consultas intensivas en conocimiento. Este enfoque permite que los parámetros del modelo se centren en razonar sobre la consulta, en lugar de dedicarse a la memorización.

Agregamos un modelo visual-lingüístico con la capacidad de recuperar múltiples entradas de conocimiento de un conjunto diverso de fuentes de conocimiento, lo que ayuda a la generación.

Construcción de memoria a partir de corpora de conocimiento multimodal

Nuestro enfoque es similar a REALM en el sentido de que precalculamos las incrustaciones de clave y valor de los elementos de conocimiento de diferentes fuentes y los indexamos en una memoria de conocimiento unificada, donde cada elemento de conocimiento se codifica en un par de clave-valor. Cada clave es un vector de incrustación de d dimensiones, mientras que cada valor es una secuencia de incrustaciones de token que representan el elemento de conocimiento con más detalle. A diferencia del trabajo anterior, REVEAL aprovecha un conjunto diverso de corpora de conocimiento multimodal, que incluyen el grafo de conocimiento WikiData, pasajes y imágenes de Wikipedia, pares de texto e imagen web y datos de respuesta a preguntas visuales. Cada elemento de conocimiento podría ser un texto, una imagen, una combinación de ambos (por ejemplo, páginas en Wikipedia) o una relación o atributo de un grafo de conocimiento (por ejemplo, Barack Obama mide 6’2 “). Durante el entrenamiento, volvemos a calcular continuamente las incrustaciones de clave y valor de la memoria a medida que se actualizan los parámetros del modelo. Actualizamos la memoria de forma asincrónica en cada mil pasos de entrenamiento.

Escalando la memoria utilizando compresión

Una solución ingenua para codificar un valor de memoria es mantener toda la secuencia de tokens para cada elemento de conocimiento. Luego, el modelo podría fusionar la consulta de entrada y los valores de memoria recuperados principales concatenando todos sus tokens y alimentándolos en un pipeline de codificador-decodificador de transformador. Este enfoque tiene dos problemas: (1) almacenar cientos de millones de elementos de conocimiento en memoria es impráctico si cada valor de memoria consta de cientos de tokens y (2) el codificador de transformador tiene una complejidad cuadrática con respecto al número total de tokens por k para la autoatención. Por lo tanto, proponemos utilizar la arquitectura Perceiver para codificar y comprimir elementos de conocimiento. El modelo Perceiver utiliza un descodificador de transformador para comprimir la secuencia completa de tokens en una longitud arbitraria. Esto nos permite recuperar las principales entradas de memoria para k con un tamaño de hasta cien.

La siguiente figura ilustra el procedimiento de construcción de los pares clave-valor de la memoria. Cada elemento de conocimiento se procesa a través de un codificador multimodal visual-lenguaje, lo que resulta en una secuencia de tokens de imagen y texto. La cabeza de clave transforma entonces estos tokens en un vector de incrustación compacto. La cabeza de valor (perceptor) condensa estos tokens en menos, reteniendo la información pertinente sobre el elemento de conocimiento dentro de ellos.

Codificamos las entradas de conocimiento de diferentes corpora en pares de incrustación de clave y valor unificados, donde las claves se utilizan para indexar la memoria y los valores contienen información sobre las entradas.

Pre-entrenamiento a gran escala en pares de imagen-texto

Para entrenar el modelo REVEAL, comenzamos con el corpus a gran escala, recopilado de la Web pública con tres mil millones de pares de subtítulos de texto alternativos de imagen, presentado en LiT. Dado que el conjunto de datos es ruidoso, agregamos un filtro para eliminar los puntos de datos con subtítulos de menos de 50 caracteres, lo que produce aproximadamente 1,3 mil millones de pares de subtítulos de imagen. Luego tomamos estos pares, combinados con el objetivo de generación de texto utilizado en SimVLM, para entrenar REVEAL. Dado un ejemplo de imagen-texto, muestreamos aleatoriamente un prefijo que contiene los primeros tokens del texto. Alimentamos el prefijo de texto y la imagen al modelo como entrada con el objetivo de generar el resto del texto como salida. El objetivo de entrenamiento es condicionar el prefijo y generar autoregresivamente la secuencia de texto restante.

Para entrenar todos los componentes del modelo REVEAL de extremo a extremo, necesitamos iniciar el modelo en un buen estado (estableciendo valores iniciales para los parámetros del modelo). De lo contrario, si comenzáramos con pesos aleatorios (inicio en frío), el recuperador a menudo devolvería elementos de memoria irrelevantes que nunca generarían señales útiles de entrenamiento. Para evitar este problema de inicio en frío, construimos un conjunto de datos de recuperación inicial con conocimiento de seudo-verdad para dar al pre-entrenamiento un comienzo razonable.

Creamos una versión modificada del conjunto de datos WIT para este propósito. Cada par de imagen-subtítulo en WIT también viene con un pasaje de Wikipedia correspondiente (palabras que rodean el texto). Juntamos el pasaje circundante con la imagen de consulta y lo usamos como conocimiento de pseudo-verdad que corresponde a la consulta de entrada. El pasaje proporciona información rica sobre la imagen y el subtítulo, lo que es útil para inicializar el modelo.

Para evitar que el modelo dependa de características de imagen de bajo nivel para la recuperación, aplicamos una transformación de datos aleatorios al azar a la imagen de consulta de entrada. Dado este conjunto de datos modificado que contiene seudo-verdad de recuperación, entrenamos las incrustaciones de clave de consulta y memoria para iniciar el modelo.

Flujo de trabajo de REVEAL

El flujo de trabajo general de REVEAL consta de cuatro pasos principales. Primero, REVEAL codifica una entrada multimodal en una secuencia de incrustaciones de token junto con una incrustación de consulta condensada. Luego, el modelo traduce cada entrada de conocimiento multiorigen en pares unificados de incrustaciones de clave y valor, con la clave utilizada para indexar la memoria y el valor que abarca toda la información sobre la entrada. A continuación, REVEAL recupera los k principales elementos de conocimiento relacionados de múltiples fuentes de conocimiento, devuelve las incrustaciones de valor preprocesadas almacenadas en la memoria y vuelve a codificar los valores. Finalmente, REVEAL fusiona los k principales elementos de conocimiento a través de una capa de fusión de conocimiento atenta al inyectar la puntuación de recuperación (producto punto entre las incrustaciones de consulta y clave) como una prioridad durante el cálculo de la atención. Esta estructura es fundamental para permitir que la memoria, el codificador, el recuperador y el generador se entrenen simultáneamente de manera integral.

Flujo de trabajo general de REVEAL.

Resultados

Evaluamos REVEAL en tareas de respuestas visuales basadas en conocimiento utilizando los conjuntos de datos OK-VQA y A-OKVQA. Ajustamos finamente nuestro modelo pre-entrenado en las tareas VQA utilizando el mismo objetivo generativo donde el modelo toma un par de imagen-pregunta como entrada y genera la respuesta de texto como salida. Demostramos que REVEAL obtiene mejores resultados en el conjunto de datos A-OKVQA que intentos anteriores que incorporan un conocimiento fijo o que utilizan grandes modelos de lenguaje (por ejemplo, GPT-3) como fuente implícita de conocimiento.

Resultados de respuestas visuales a preguntas en A-OKVQA. REVEAL logra una mayor precisión en comparación con trabajos anteriores, incluyendo ViLBERT, LXMERT, ClipCap, KRISP y GPV-2.

También evaluamos REVEAL en los puntos de referencia de subtitulado de imágenes utilizando los conjuntos de datos MSCOCO y NoCaps. Ajustamos directamente REVEAL en la división de entrenamiento de MSCOCO a través del objetivo generativo de entropía cruzada. Medimos nuestro rendimiento en la división de prueba de MSCOCO y el conjunto de evaluación de NoCaps utilizando la métrica CIDEr, que se basa en la idea de que las buenas leyendas deben ser similares a las leyendas de referencia en términos de elección de palabras, gramática, significado y contenido. Nuestros resultados en los conjuntos de datos de subtítulos de MSCOCO y NoCaps se muestran a continuación.

Resultados de subtitulado de imágenes en MSCOCO y NoCaps utilizando la métrica CIDEr. REVEAL obtiene una puntuación más alta en comparación con Flamingo, VinVL, SimVLM y CoCa.

A continuación, mostramos un par de ejemplos cualitativos de cómo REVEAL recupera documentos relevantes para responder preguntas visuales.

REVEAL puede utilizar conocimientos de diferentes fuentes para responder correctamente la pregunta.

Conclusión

Presentamos un modelo de lenguaje visual recuperado de extremo a extremo (REVEAL), que contiene un recuperador de conocimiento que aprende a utilizar un conjunto diverso de fuentes de conocimiento con diferentes modalidades. Entrenamos REVEAL en un corpus de imagen-texto masivo con cuatro corpus de conocimiento diversos y logramos resultados de vanguardia en tareas de respuesta visual intensiva en conocimiento y subtítulos de imágenes. En el futuro, nos gustaría explorar la capacidad de este modelo para la atribución y aplicarlo a una clase más amplia de tareas multimodales.

Agradecimientos

Esta investigación fue realizada por Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross y Alireza Fathi.