Conoce InstaFlow Un nuevo modelo generativo de IA de un solo paso derivado del StableDiffusion (SD) de código abierto.

Introducing InstaFlow, a new one-step generative AI model derived from the open-source StableDiffusion (SD).

Los modelos de difusión han traído una revolución en la generación de texto a imagen, ofreciendo una calidad y creatividad notables. Sin embargo, vale la pena señalar que su procedimiento de muestreo de múltiples pasos se reconoce por su lentitud, a menudo exigiendo numerosos pasos de inferencia para lograr resultados deseables. En este artículo, los autores presentan un innovador modelo generativo de un solo paso derivado del modelo de Difusión Estable (SD) de código abierto.

Descubrieron que un intento sencillo de destilar SD condujo a un fracaso total debido a un problema significativo: el acoplamiento subóptimo de ruido e imágenes, lo cual obstaculizó en gran medida el proceso de destilación. Para superar este desafío, los investigadores recurrieron a Rectified Flow, un avance reciente en modelos generativos que incorpora flujos probabilísticos. Rectified Flow incorpora una técnica única llamada reflow, que endereza gradualmente la trayectoria de los flujos de probabilidad.

Esto, a su vez, reduce el costo de transporte entre la distribución de ruido y la distribución de imágenes. Esta mejora en el acoplamiento facilita en gran medida el proceso de destilación, abordando el problema inicial. La imagen anterior muestra el funcionamiento de Instaflow.

La utilización de un generador de texto a imagen basado en difusión de un solo paso se evidencia por una puntuación FID (Distancia de Inception de Fréchet) de 23.3 en el conjunto de datos MS COCO 2017-5k, lo que representa una mejora sustancial respecto a la técnica de vanguardia anterior conocida como destilación progresiva (37.2 → 23.3 en FID). Además, mediante el empleo de una red expandida con 1.7 mil millones de parámetros, los investigadores han logrado mejorar aún más el FID, alcanzando una puntuación de 22.4. Este modelo de un solo paso se denomina “InstaFlow”.

En el conjunto de datos MS COCO 2014-30k, InstaFlow demuestra un rendimiento excepcional con un FID de 13.1 en tan solo 0.09 segundos, lo que lo convierte en el mejor intérprete en la categoría de ≤ 0.1 segundos. Esto supera al modelo reciente StyleGAN-T (13.9 en 0.1 segundo). Cabe destacar que el entrenamiento de InstaFlow se logra con un costo computacional relativamente bajo de solo 199 días de GPU A100.

Basándose en estos resultados, los investigadores han propuesto las siguientes contribuciones:

  • Mejora de SD de un solo paso: El entrenamiento del modelo 2-Rectified Flow no convergió completamente, invirtiendo 75.2 días de GPU A100. Esto es solo una fracción del costo de entrenamiento del SD original (6250 días de GPU A100). Al escalar el conjunto de datos, el tamaño del modelo y la duración del entrenamiento, los investigadores creen que el rendimiento de SD de un solo paso mejorará significativamente.
  • ControlNet de un solo paso: Al aplicar nuestro pipeline para entrenar modelos de ControlNet, es posible obtener ControlNets de un solo paso capaces de generar contenidos controlables en cuestión de milisegundos.
  • Personalización para modelos de un solo paso: Al ajustar SD con el objetivo de entrenamiento de modelos de difusión y LORA, los usuarios pueden personalizar el SD preentrenado para generar contenido y estilos específicos.
  • Estructura de red neuronal para generación de un solo paso: Con el avance de la creación de modelos SD de un solo paso utilizando reflow condicionado por texto y destilación, surgen varias direcciones interesantes:

(1) explorar estructuras alternativas de un solo paso, como arquitecturas exitosas utilizadas en GANs, que podrían superar potencialmente a U-Net en términos de calidad y eficiencia;

(2) aprovechar técnicas como la poda, cuantificación y otros enfoques para construir redes neuronales eficientes y hacer que la generación de un solo paso sea más económicamente accesible, minimizando al mismo tiempo posibles degradaciones en la calidad.