Conoce JourneyDB un conjunto de datos a gran escala con 4 millones de imágenes generadas diversas y de alta calidad, seleccionadas para comprender visualmente de manera multimodal.
Conoce JourneyDB, un conjunto de datos a gran escala con 4 millones de imágenes generadas diversamente y de alta calidad, seleccionadas para comprender visualmente de manera multimodal.
Con el avance de los grandes modelos de lenguaje como ChatGPT y DALL-E y el aumento de la popularidad de la inteligencia artificial generativa, generar contenido como lo haría un humano ya no es un sueño. Todo es ahora factible, incluyendo responder preguntas, completar código y generar contenido a partir de descripciones textuales, así como la creación de imágenes a partir de texto e imágenes. Recientemente, la IA se ha equiparado con la inventiva humana. El conocido chatbot desarrollado por OpenAI, llamado ChatGPT, se basa en la arquitectura de transformador de GPT 3.5 y es utilizado por casi todos. La última versión de GPT, es decir, GPT 4, es multimodal en naturaleza, a diferencia de la versión anterior, GPT 3.5, que solo permite a ChatGPT tomar entradas de texto.
La calidad del contenido generativo ha aumentado significativamente como resultado del desarrollo de modelos de difusión. Debido a estos avances, las plataformas de contenido generativo de inteligencia artificial (AIGC), como DALLE, Stability AI, Runway y Midjourney, se han vuelto cada vez más populares, ya que estos sistemas permiten a los usuarios crear imágenes de alta calidad basadas en indicaciones de texto proporcionadas en lenguaje natural. A pesar de los avances en la comprensión multimodal, los modelos de visión y lenguaje todavía tienen dificultades para comprender las imágenes generadas. En comparación con los datos reales, las imágenes sintéticas muestran un mayor grado de variabilidad de contenido y estilo, lo que dificulta mucho que los modelos las comprendan correctamente.
Para abordar estos problemas, un equipo de investigadores ha presentado JourneyDB, un conjunto de datos a gran escala específicamente curado para la comprensión visual multimodal de imágenes generativas. JourneyDB tiene 4 millones de fotos generadas únicas y de alta calidad que se han creado utilizando diferentes indicaciones de texto. Este conjunto de datos se centra tanto en la interpretación de contenido como en estilo y busca ofrecer un recurso completo para entrenar y evaluar las habilidades de los modelos para comprender imágenes generadas.
Las cuatro tareas incluidas en el benchmark sugerido son las siguientes:
- Comenzando con Amazon SageMaker Ground Truth
- Este artículo de IA presenta DreamDiffusion un modelo de pensamient...
- Un enfoque fundamentado para evolucionar la elección y el control d...
- Inversión de indicaciones: la inversión de indicaciones se ha utilizado para encontrar las indicaciones de texto que el usuario utilizó para generar una imagen. Esto prueba la comprensión del modelo del contenido y estilo de las imágenes generadas.
- Recuperación de estilo: el equipo se ha centrado en la recuperación de estilo para que el modelo identifique y recupere imágenes generativas similares en función de sus atributos estilísticos. Esto evalúa la capacidad del modelo para discernir matices estilísticos dentro de las imágenes generativas.
- Descripción de imágenes: en la descripción de imágenes, el modelo tiene la tarea de generar leyendas descriptivas que representen con precisión el contenido de la imagen generativa, lo que evalúa la capacidad del modelo para comprender y expresar los elementos visuales del contenido generado de manera efectiva en lenguaje natural.
- Preguntas y respuestas visuales: a través de las preguntas y respuestas visuales (VQA), el modelo proporciona respuestas precisas a preguntas relacionadas con la imagen generativa. El modelo es capaz de comprender el contenido visual y de estilo y proporcionar respuestas relevantes basadas en las preguntas planteadas.
El equipo recopiló 4,692,751 pares de imágenes e indicaciones de texto y los dividió en tres conjuntos: un conjunto de entrenamiento, uno de validación y uno de pruebas. Para la evaluación, el equipo realizó experimentos exhaustivos utilizando el conjunto de datos de referencia. Los resultados mostraron que los modelos multimodales de vanguardia no funcionan tan bien como lo hacen en conjuntos de datos reales, pero algunos ajustes en el conjunto de datos propuesto mejoraron en gran medida su rendimiento.