Investigadores de Baidu AI presentan VideoGen un nuevo enfoque de generación de texto a video que puede generar videos de alta definición con alta fidelidad de fotogramas.
Investigadores de Baidu AI presentan VideoGen, un enfoque nuevo para generar videos de alta definición con alta fidelidad de fotogramas.
Los sistemas de generación de texto a imagen (T2I), como DALL-E2, Imagen, Cogview, Latent Diffusion y otros, han avanzado mucho en los últimos años. Por otro lado, la generación de texto a video (T2V) sigue siendo un problema difícil debido a la necesidad de contenido visual de alta calidad y movimiento realista y suave correspondiente al texto. Además, es muy difícil encontrar bases de datos a gran escala de combinaciones de texto y video.
Una investigación reciente de Baidu Inc. introduce VideoGen, un método para crear una película de alta calidad y sin interrupciones a partir de descripciones textuales. Para dirigir la creación de T2V, los investigadores primero construyeron una imagen de alta calidad utilizando un modelo T2I. Luego, utilizan un módulo de difusión de video latente en cascada que genera una serie de representaciones latentes suaves de alta resolución basadas en la imagen de referencia y la descripción de texto. Cuando es necesario, también emplean un enfoque basado en flujo para aumentar la secuencia de representaciones latentes en el tiempo. Al final, el equipo entrenó un decodificador de video para convertir la secuencia de representaciones latentes en un video real.
Crear una imagen de referencia con la ayuda de un modelo T2I tiene dos ventajas distintas.
- Se mejora la calidad visual del video resultante. El método propuesto aprovecha el modelo T2I para extraer de un conjunto de datos mucho más amplio de pares imagen-texto, que es más diverso y rico en información que el conjunto de datos de pares video-texto. En comparación con Imagen Video, que utiliza combinaciones de imagen-texto para el entrenamiento conjunto, este método es más eficiente durante la fase de entrenamiento.
- Un modelo de difusión de video latente en cascada puede ser guiado por una imagen de referencia, lo que le permite aprender la dinámica del video en lugar del contenido visual. El equipo cree que esto es una ventaja adicional en comparación con los métodos que solo utilizan los parámetros del modelo T2I.
El equipo también menciona que la descripción textual no es necesaria para que el decodificador de video produzca una película a partir de la secuencia de representaciones latentes. Al hacerlo, entrenan el decodificador de video en un conjunto de datos más grande, que incluye pares de video-texto y películas no etiquetadas (sin pareja). Como resultado, este método mejora la suavidad y realismo del movimiento del video creado gracias a los datos de video de alta calidad que utilizamos.
- 15 proyectos que utilizan la IA para alcanzar los Objetivos Globale...
- Transformadores Variacionales para la Composición Musical ¿Puede la...
- Investigadores de Google DeepMind proponen Optimización mediante PR...
Según sugieren los hallazgos, VideoGen representa una mejora significativa con respecto a los métodos anteriores de generación de texto a video en términos de evaluación cualitativa y cuantitativa.