Explorando Transformadores de Imagen-Lenguaje para la comprensión de verbos
Explorando Transformadores de Imagen-Lenguaje para comprensión de verbos.
La conexión del lenguaje con la visión es un problema fundamental para muchos sistemas de IA del mundo real, como recuperar imágenes o generar descripciones para personas con discapacidad visual. El éxito en estas tareas requiere que los modelos relacionen diferentes aspectos del lenguaje, como objetos y verbos, con imágenes. Por ejemplo, para distinguir entre las dos imágenes en la columna del medio a continuación, los modelos deben diferenciar entre los verbos “atrapar” y “patear”. La comprensión de los verbos es particularmente difícil, ya que requiere no solo reconocer objetos, sino también comprender cómo se relacionan diferentes objetos en una imagen. Para superar esta dificultad, presentamos el conjunto de datos SVO-Probes y lo utilizamos para evaluar los modelos de lenguaje y visión en la comprensión de verbos.
En particular, consideramos modelos de transformadores multimodales (por ejemplo, Lu et al., 2019; Chen et al., 2020; Tan and Bansal, 2019; Li et al., 2020), que han demostrado éxito en una variedad de tareas de lenguaje y visión. Sin embargo, a pesar del buen rendimiento en las pruebas, no está claro si estos modelos tienen una comprensión multimodal detallada. En particular, trabajos anteriores han mostrado que los modelos de lenguaje y visión pueden tener éxito en las pruebas sin una comprensión multimodal: por ejemplo, responder preguntas sobre imágenes basadas solo en conocimientos previos del lenguaje (Agrawal et al., 2018) o “alucinar” objetos que no están en la imagen al describir imágenes (Rohrbach et al., 2018). Para anticipar las limitaciones del modelo, trabajos como el de Shekhar et al. proponen evaluaciones especializadas para evaluar sistemáticamente los modelos en cuanto a la comprensión del lenguaje. Sin embargo, los conjuntos de evaluación anteriores están limitados en cuanto al número de objetos y verbos. Hemos desarrollado SVO-Probes para evaluar mejor las posibles limitaciones en la comprensión de verbos en los modelos actuales.
SVO-Probes incluye 48,000 pares de imágenes y oraciones y evalúa la comprensión de más de 400 verbos. Cada oración se puede descomponer en un triplete <Sujeto, Verbo, Objeto> (o triplete SVO) y se empareja con imágenes de ejemplo positivas y negativas. Los ejemplos negativos difieren en solo una forma: se cambia el Sujeto, el Verbo o el Objeto. La figura de arriba muestra ejemplos negativos en los que el sujeto (izquierda), el verbo (medio) o el objeto (derecha) no coinciden con la imagen. Esta formulación de la tarea permite aislar las partes de la oración con las que el modelo tiene más dificultades. También hace que SVO-Probes sea más desafiante que las tareas estándar de recuperación de imágenes, donde los ejemplos negativos a menudo no tienen relación alguna con la oración de consulta.
Para crear SVO-Probes, realizamos una consulta de búsqueda de imágenes con tripletes SVO de un conjunto de datos de entrenamiento común, Conceptual Captions (Sharma et al., 2018). Debido a que la búsqueda de imágenes puede ser ruidosa, realizamos una etapa de anotación preliminar para filtrar las imágenes recuperadas y asegurarnos de tener un conjunto limpio de pares imagen-SVO. Dado que los transformadores se entrenan con pares imagen-oración, no con pares imagen-SVO, necesitamos pares imagen-oración para evaluar nuestro modelo. Para recolectar oraciones que describan cada imagen, los anotadores escriben una breve oración para cada imagen que incluye el triplete SVO. Por ejemplo, dado el triplete SVO <animal, acostarse, césped>, un anotador podría escribir la oración “Un animal se acuesta en el césped”. Luego utilizamos las anotaciones SVO para emparejar cada oración con una imagen negativa y pedimos a los anotadores que verifiquen los negativos en una etapa final de anotación. Consulte la figura de abajo para más detalles.
- Aprendiendo la transmisión cultural en tiempo real robusta sin dato...
- Cuando la pasión por los graves y los metales ayudan a construir me...
- Abordando múltiples tareas con un único modelo de lenguaje visual
Examinamos si los transformadores multimodales pueden clasificar con precisión los ejemplos como positivos o negativos. El gráfico de barras a continuación ilustra nuestros resultados. Nuestro conjunto de datos es desafiante: nuestro modelo de transformador multimodal estándar logra una precisión general del 64.3% (la probabilidad al azar es del 50%). Mientras que la precisión es del 67.0% y 73.4% en sujetos y objetos respectivamente, el rendimiento cae al 60.8% en verbos. Este resultado muestra que el reconocimiento de verbos es realmente desafiante para los modelos de visión y lenguaje.
También exploramos qué arquitecturas de modelos tienen un mejor rendimiento en nuestro conjunto de datos. Sorprendentemente, los modelos con una modelización de imágenes más débil tienen un mejor rendimiento que el modelo de transformador estándar. Una hipótesis es que nuestro modelo estándar (con una mayor capacidad de modelización de imágenes) se ajusta demasiado al conjunto de entrenamiento. Dado que ambos modelos tienen un peor rendimiento en otras tareas de lenguaje y visión, nuestra tarea de evaluación específica ilumina debilidades del modelo que no se observan en otros conjuntos de pruebas.
En general, encontramos que a pesar del impresionante rendimiento en los benchmarks, los transformadores multimodales todavía tienen dificultades con la comprensión detallada, especialmente la comprensión de verbos detallados. Esperamos que SVO-Probes pueda ayudar a impulsar la exploración de la comprensión de verbos en modelos de lenguaje y visión, e inspirar conjuntos de datos de prueba más específicos.
Visite nuestro benchmark y modelos de SVO-Probes en GitHub: benchmark y modelos.