Conoce a DreamBooth Una técnica de IA para la generación de texto a imagen basada en el sujeto
DreamBooth es una técnica de IA que genera imágenes a partir de texto basado en el sujeto.
Imagina a tu amigo cuadrúpedo jugando afuera o tu coche exhibido en un showroom exclusivo. Crear estos escenarios ficticios es particularmente desafiante, ya que requiere combinar instancias de sujetos particulares (como objetos o animales) dentro de nuevos contextos.
Los modelos de texto a imagen a gran escala desarrollados recientemente han demostrado capacidades notables para generar imágenes de alta calidad y diversas basadas en descripciones de lenguaje natural. Una de las principales ventajas de estos modelos radica en su capacidad para aprovechar una comprensión semántica sólida adquirida a partir de una vasta colección de pares de imágenes y subtítulos. Esta prioridad semántica permite que el modelo asocie palabras como “perro” con diversas representaciones de perros, teniendo en cuenta diferentes poses y variaciones contextuales dentro de una imagen. Si bien estos modelos destacan en la síntesis, no pueden replicar fielmente la apariencia de los sujetos de un conjunto de referencia dado ni generar nuevas interpretaciones de esos sujetos en diferentes contextos. Esta limitación se debe a la expresividad limitada de su dominio de salida. En consecuencia, incluso descripciones textuales detalladas de un objeto pueden resultar en instancias con apariencias distintas, lo cual es una mala noticia si buscabas algo así.
La buena noticia es que recientemente se ha introducido un nuevo enfoque de IA que permite la “personalización” de los modelos de difusión de texto a imagen. Esto permite una nueva forma de adaptar los modelos generativos para satisfacer los requisitos únicos de generación de imágenes de los usuarios individuales. El objetivo es ampliar el diccionario de lenguaje-visión del modelo para establecer asociaciones entre nuevas palabras y sujetos específicos que los usuarios pretenden generar.
Una vez que el diccionario ampliado se integra en el modelo, adquiere la capacidad de sintetizar imágenes fotorealistas novedosas del conjunto de sujetos en diferentes escenas, preservando sus características de identificación distintivas. Este proceso se puede entender como una “cabina de fotos mágica” donde se capturan algunas imágenes de los sujetos y la cabina genera posteriormente fotos del sujeto en diversas condiciones y escenas, guiadas por indicaciones de texto simples e intuitivas. La arquitectura de DreamBooth se presenta en la figura siguiente.
- Echa un vistazo a nuestra exclusiva hoja de trucos de Markdown
- Investigadores de la Universidad Tsinghua presentan un nuevo algori...
- Regresión Logística Intuición e Implementación
Formalmente, el objetivo es incrustar el sujeto en el dominio de salida del modelo de manera que permita su síntesis junto con un identificador único, dadas unas pocas imágenes del sujeto (alrededor de 3-5). Para lograr esto, DreamBooth representa el sujeto utilizando identificadores de token raros y realiza un ajuste fino de un marco de trabajo preentrenado de difusión de texto a imagen.
El modelo de texto a imagen se ajusta finamente utilizando imágenes de entrada e indicaciones de texto que consisten en un identificador único seguido del nombre de clase del sujeto (por ejemplo, “Un perro [V]”). Este enfoque permite que el modelo utilice el conocimiento previo sobre la clase del sujeto mientras asocia la instancia específica de la clase con el identificador único. Se propone una pérdida de preservación de prioridad específica de clase para evitar la deriva del lenguaje, lo cual podría hacer que el modelo asocie incorrectamente el nombre de clase (por ejemplo, “perro”) con una instancia específica. Esta pérdida aprovecha la prioridad semántica incorporada sobre la clase dentro del modelo, fomentando la generación de instancias diversas de la misma clase que el sujeto.
El enfoque propuesto se aplica a varias tareas de generación de imágenes basadas en texto, incluida la recontextualización del sujeto, la modificación de propiedades, las interpretaciones de arte original y más. Estas aplicaciones abren nuevas oportunidades para tareas previamente desafiantes.
A continuación se presentan algunos ejemplos de salida para la tarea de recontextualización, junto con la indicación de texto proporcionada para lograrlo.
Este fue el resumen de DreamBooth, una novedosa técnica de IA para la generación de imágenes a partir de texto impulsada por el sujeto. Si estás interesado y quieres aprender más sobre este trabajo, puedes encontrar información adicional haciendo clic en los enlaces a continuación.