Investigadores del MIT crearon un nuevo conjunto de datos sintéticos anotados de imágenes que representan una amplia gama de escenarios para ayudar a los modelos de aprendizaje automático a comprender los conceptos en una escena.

Investigadores del MIT crearon un conjunto de datos sintéticos anotados de imágenes para ayudar a los modelos de aprendizaje automático a comprender los conceptos en una escena.

Los modelos de visión y lenguaje pre-entrenados a gran escala han demostrado un rendimiento notable en numerosas aplicaciones, permitiendo reemplazar un conjunto fijo de clases admitidas con un razonamiento de vocabulario abierto sin necesidad de entrenamiento previo sobre consultas de lenguaje natural (casi arbitrarias). Sin embargo, investigaciones recientes han revelado un defecto fundamental en estos modelos. Por ejemplo, su incapacidad para comprender conceptos de lenguaje visual (VLC) que se extienden “más allá de los sustantivos”, como el significado de palabras que no son objetos (por ejemplo, atributos, acciones, relaciones, estados, etc.), o su dificultad con el razonamiento composicional, como comprender la importancia del orden de las palabras en una oración.

Los modelos de visión y lenguaje, potentes algoritmos de aprendizaje automático que aprenden a relacionar texto con imágenes, han demostrado resultados notables cuando se les solicita generar subtítulos o resúmenes de video. Si bien estos modelos son excelentes para distinguir objetos, a menudo necesitan ayuda para comprender conceptos como los atributos de las cosas o la disposición de los elementos en una escena. Por ejemplo, un modelo de visión y lenguaje puede percibir la taza y la mesa en una imagen, pero no comprender que la taza está sobre la mesa.

Investigadores del MIT han demostrado una nueva técnica que utiliza datos generados por computadora para ayudar a los modelos de visión y lenguaje a superar esta deficiencia. En particular, proponen mejorar los aspectos de VLC y la composición de los datos visuales y de texto generados, y luego utilizar estos datos para ajustar finamente los modelos de VL instruyéndolos a prestar más atención a estas características. Además, además de ser esencialmente gratuitos y escalables infinitamente, los datos sintéticos también pueden no tener las preocupaciones de privacidad que siempre acompañan a los datos reales. La creación de datos sintéticos que puedan utilizarse de manera efectiva para mejorar los aspectos de VLC y composición de los modelos de VL pre-entrenados con grandes cantidades de datos reales presenta desafíos técnicos adicionales. A diferencia de la mayoría de los trabajos anteriores sobre generación de datos visuales sintéticos, deben desarrollar imágenes y texto que describan los elementos composicionales de una escena. Además, generan videos sintéticos que utilizan simulación física 3D real, como entornos 3D diversos y objetos 3D diversos, movimientos humanos y activos de acción, interacción añadida con las cosas y diversos ángulos de cámara.

Trabajos anteriores utilizaron activos de movimiento para generar datos sintéticos, pero los datos visuales no estaban acompañados de subtítulos de texto y debían diseñarse teniendo en cuenta la composición. Los investigadores contribuyen con Synthetic Visual Concepts (SyViC), un conjunto de datos sintéticos generados a gran escala (millones de ejemplos) con descripciones textuales ricas, que se pueden ampliar fácilmente mediante el código de síntesis de datos y todos los datos sintéticos generados anteriormente a gran escala.

Aportaciones

  • Los investigadores contribuyen con SyViC, un conjunto de datos sintéticos a gran escala (millones de ejemplos) con descripciones textuales ricas, diseñado para mejorar la comprensión de VLC y el razonamiento composicional en modelos de VL, así como la metodología y el código de generación para su síntesis y extensibilidad potencial.
  • Ajuste fino efectivo de modelos de VL generales que aprovechan los datos de SyViC para mejorar las características de los modelos de VL pre-entrenados sin comprometer su rendimiento sin entrenamiento previo.
  • Los resultados experimentales y un estudio de ablación exhaustivo demuestran una mejora significativa (más del 10% en algunos casos) en la comprensión de VLC y el razonamiento composicional, medido en los benchmarks más recientes VL-Checklist, ARO y Winoground, y validado en el modelo CLIP más popular y sus derivados (por ejemplo, el más reciente CyCLIP).

Resultados

Se generaron variantes de todos los modelos utilizando el método propuesto y los datos sintéticos de SyViC. Antes del ajuste fino en SyViC, cada modelo se compara con su modelo fuente respectivo entrenado con datos reales a gran escala. Según los hallazgos de los investigadores, tanto los datos sintéticos de SyViC como la receta de ajuste fino propuesta demuestran mejoras significativas en comparación con sus líneas de base respectivas. Además, los investigadores ilustran las mejoras métricas individuales de VLC adquiridas para CLIP en los benchmarks VL-Checklist y ARO, mostrando mejoras absolutas de hasta 9.1% y 12.6%, respectivamente. Esto demuestra la eficiencia y el potencial del método y los datos sintéticos de SyViC para mejorar la comprensión de VLC y el razonamiento composicional en modelos de VL.

Prueba aquí https://synthetic-vic.github.io/ 

Limitaciones

Aunque los investigadores han obtenido resultados bastante prometedores en tres benchmarks diferentes, hay limitaciones en su trabajo. Por ejemplo, el simulador gráfico tiene un modelo simplificado de iluminación, ruido del sensor y funciones de reflectancia en comparación con el mundo real, lo que puede afectar la robustez de la constancia del color. Es probable que se requieran técnicas más sofisticadas de adaptación y renderización de dominio para mejorar aún más los resultados. Además, un examen más profundo de las leyes de escala para datos sintéticos sería una excelente manera de aprovechar completamente el potencial del trabajo.

Para resumir

Los grandes modelos de visión y lenguaje han dictado el statu quo en la visión por computadora y la percepción multimodal, logrando resultados de vanguardia en varios benchmarks difíciles. Sin embargo, los modelos existentes necesitan ayuda con el razonamiento compositivo y la comprensión de conceptos más allá de los sustantivos de objetos, como atributos y relaciones. Esta es la primera investigación sobre si los datos sintéticos pueden mitigar estas deficiencias. Investigadores del MIT propusieron una tubería de generación de datos para crear un conjunto de datos de un millón de imágenes sintéticas y sus leyendas correspondientes, y una estrategia eficiente de ajuste fino con un análisis exhaustivo para mejorar las capacidades de entendimiento compositivo y conceptual de los modelos multimodales sin comprometer su rendimiento de clasificación de cero disparo.