Colócame en el centro rápidamente Subject-Diffusion es un modelo de IA que puede lograr la generación de texto a imagen personalizada en un dominio abierto.
Colócame en el centro rápidamente. Subject-Diffusion es un modelo de IA para generar texto a imagen personalizada en un dominio abierto.
Los modelos de texto a imagen han sido la piedra angular de cada discusión de IA durante el último año. El avance en el campo ha sido bastante rápido y como resultado, tenemos modelos impresionantes de texto a imagen. La IA generativa ha entrado en una nueva fase.
Los modelos de difusión han sido los principales contribuyentes a este avance. Han surgido como una poderosa clase de modelos generativos. Estos modelos están diseñados para generar imágenes de alta calidad al ir eliminando lentamente el ruido de la entrada hasta obtener una imagen deseada. Los modelos de difusión pueden capturar patrones de datos ocultos y generar muestras diversas y realistas.
El rápido avance de los modelos generativos basados en la difusión ha revolucionado los métodos de generación de texto a imagen. Puedes pedir una imagen, cualquier cosa que se te ocurra, describirla y los modelos pueden generarla con bastante precisión. A medida que avanzan, se está volviendo difícil entender qué imágenes son generadas por la IA.
Sin embargo, aquí hay un problema. Estos modelos se basan únicamente en descripciones de texto para generar imágenes. Solo puedes “describir” lo que quieres ver. Además, no son fáciles de personalizar, ya que en la mayoría de los casos requeriría un ajuste fino.
- Despliega MusicGen en cuestión de minutos con los puntos finales de...
- Seis creencias que hacen que tu trabajo en Ciencia de Datos esté pl...
- 40+ Herramientas de IA Geniales que Deberías Verificar (Agosto 2023)
Imagina hacer el diseño de interiores de tu casa y trabajar con un arquitecto. El arquitecto solo podría ofrecerte diseños que hizo para clientes anteriores y cuando intentes personalizar alguna parte del diseño, simplemente lo ignorará y te ofrecerá otro estilo usado. No suena muy agradable, ¿verdad? Esta podría ser la experiencia que obtendrás con los modelos de texto a imagen si buscas personalización.
Afortunadamente, se han realizado intentos para superar estas limitaciones. Los investigadores han explorado la integración de descripciones de texto con imágenes de referencia para lograr una generación de imágenes más personalizada. Mientras que algunos métodos requieren un ajuste fino en imágenes de referencia específicas, otros vuelven a entrenar los modelos base en conjuntos de datos personalizados, lo que puede tener inconvenientes en la fidelidad y la generalización. Además, la mayoría de los algoritmos existentes se centran en dominios específicos, dejando lagunas en el manejo de la generación de múltiples conceptos, el ajuste fino en tiempo de prueba y la capacidad de cero disparo en dominios abiertos.
Entonces, hoy nos encontramos con un nuevo enfoque que nos acerca a la personalización en dominios abiertos: es hora de conocer a Subject-Diffusion.
Subject-Diffusion es un innovador marco de generación de imágenes de texto a imagen personalizado en dominios abiertos. Utiliza solo una imagen de referencia y elimina la necesidad de ajuste fino en tiempo de prueba. Para construir un conjunto de datos a gran escala para la generación de imágenes personalizadas, se basa en una herramienta de etiquetado de datos automática, lo que resulta en el conjunto de datos Subject-Diffusion (SDD) con impresionantes 76 millones de imágenes y 222 millones de entidades.
Subject-Diffusion tiene tres componentes principales: control de ubicación, control de imagen de referencia de granularidad fina y control de atención. El control de ubicación implica agregar imágenes de máscara de los sujetos principales durante el proceso de inyección de ruido. El control de imagen de referencia de granularidad fina utiliza un módulo combinado de información de texto e imagen para mejorar la integración de ambas granularidades. Para permitir la generación fluida de múltiples sujetos, se introduce el control de atención durante el entrenamiento.
Subject-Diffusion logra una fidelidad y generalización impresionantes, capaz de generar imágenes personalizadas de un solo sujeto, múltiples sujetos e imágenes personalizadas de sujetos humanos con modificaciones en forma, pose, fondo y estilo basándose en solo una imagen de referencia por sujeto. El modelo también permite una interpolación fluida entre imágenes y descripciones de texto personalizadas a través de un proceso de eliminación de ruido especialmente diseñado. Las comparaciones cuantitativas muestran que Subject-Diffusion supera o coincide con otros métodos de vanguardia, tanto con como sin ajuste fino en tiempo de prueba, en varios conjuntos de datos de referencia.