Datos, Arquitectura o Pérdidas ¿Qué Contribuye Más al Éxito del Transformer Multimodal?
¿Qué es más importante para el éxito del Transformer Multimodal datos, arquitectura o pérdidas?
La capacidad de vincular el lenguaje con la visión es un aspecto fundamental de los sistemas de IA en el mundo real; es útil en una variedad de tareas (por ejemplo, respuesta a preguntas visuales) y aplicaciones (por ejemplo, generar descripciones para personas con discapacidad visual). Los modelos multimodales (preentrenados en pares de imágenes y texto) tienen como objetivo abordar este problema de vinculación. Una familia reciente de modelos, los transformers multimodales (por ejemplo, Lu et al., 2019; Chen et al., 2020; Tan y Bansal, 2019; Li et al., 2020), han logrado un rendimiento de vanguardia en una variedad de benchmarks multimodales, lo que sugiere que la arquitectura de transformer con codificador conjunto es más adecuada para capturar la alineación entre pares de imágenes y texto que enfoques anteriores (como los codificadores duales).
En particular, en comparación con la arquitectura de codificador dual donde no hay interacción entre las modalidades, los transformers multimodales (codificadores conjuntos) son más eficientes en el uso de muestras. En el gráfico a continuación, vemos que, al ser probado en la recuperación de imágenes sin entrenamiento previo, un transformer multimodal existente (UNITER) tiene un rendimiento similar a un codificador dual a gran escala (CLIP) que se entrena con 100 veces más datos.

En este trabajo, examinamos qué aspectos de los transformers multimodales: atención, pérdidas y datos de preentrenamiento, son importantes para su éxito en el preentrenamiento multimodal. Descubrimos que la atención multimodal, donde tanto los transformers de lenguaje como de imagen se atienden entre sí, es crucial para el éxito de estos modelos. Los modelos con otros tipos de atención (incluso con mayor profundidad o parámetros) no logran obtener resultados comparables a los modelos más pequeños y menos profundos con atención multimodal. Además, se pueden lograr resultados comparables sin la pérdida de imagen (modelado de regiones enmascaradas) propuesta originalmente para los transformers multimodales. Esto sugiere que nuestros modelos actuales no están aprovechando la señal útil en la modalidad de imagen, presumiblemente debido a la formulación de pérdida de imagen.
También estudiamos diferentes propiedades de los conjuntos de datos multimodales, como su tamaño y el grado en que el lenguaje describe su imagen correspondiente (nivel de ruido). Descubrimos que el tamaño del conjunto de datos no siempre predice el rendimiento de los transformers multimodales; el nivel de ruido y la similitud del lenguaje con la tarea de evaluación son factores importantes que contribuyen. Esto sugiere que la curación de conjuntos de datos imagen-texto menos ruidosos es importante a pesar de la tendencia actual de recolectar conjuntos de datos ruidosos de la web.
- Teoría de juegos como motor para el análisis de datos a gran escala
- Melting Pot una suite de evaluación para el aprendizaje por refuerz...
- Poniendo el poder de AlphaFold en las manos del mundo.
En general, nuestro análisis muestra que los transformers multimodales son más sólidos que la arquitectura de codificador dual (dada la misma cantidad de datos de preentrenamiento), principalmente debido a la interacción a través de la atención multimodal. Sin embargo, aún existen muchos problemas abiertos al diseñar modelos multimodales, incluyendo mejores pérdidas para la modalidad de imagen y robustez al ruido del conjunto de datos.