Meet Animate-A-Story Un enfoque de narración con generación de video mejorada por recuperación que puede sintetizar videos de alta calidad, estructurados y centrados en personajes.
Animate-A-Story es un enfoque de narración con generación de video mejorada que crea videos de alta calidad centrados en personajes.
Los modelos de texto a imagen han ganado mucha atención recientemente. Con la introducción de la Inteligencia Artificial Generativa, modelos como GPT y DALL-E han estado en los titulares desde su lanzamiento. Su aumento en popularidad es la razón por la cual generar contenido como un humano ya no es un sueño hoy en día. No solo los modelos de texto a imagen, sino también la generación de texto a video (T2V) es ahora posible. Filmar acción en vivo o producir animación generada por computadora generalmente se requiere para producir videos de narración interesantes, lo cual es un procedimiento difícil y que consume mucho tiempo.
Aunque los últimos avances en la producción de texto a video han demostrado promesas en la creación automática de videos a partir de descripciones basadas en texto, todavía existen ciertas limitaciones. La falta de control sobre el diseño y la disposición del video resultante, que son esenciales para visualizar una historia atractiva y producir una experiencia cinematográfica, es un desafío principal. Primeros planos, vistas largas y composición, entre otras técnicas cinematográficas, son cruciales para permitir que el público comprenda mensajes subliminales. Actualmente, los métodos de texto a video existentes tienen dificultades para proporcionar movimientos y diseños apropiados que se adhieran a los estándares del cine.
Para abordar estas limitaciones, un equipo de investigadores ha propuesto un enfoque único de generación de video, que es la generación de video con recuperación mejorada, llamado Animate-A-Story. Este método aprovecha la abundancia de contenido de video existente obteniendo películas de bases de datos externas basadas en indicaciones de texto y utilizando estas películas como señal de guía para el proceso de creación T2V. Los usuarios pueden tener un mayor control sobre el diseño y la composición de los videos generados al animar una historia, utilizando los videos recuperados como referencia de estructura.
El marco consta de dos módulos: Recuperación de Estructura de Movimiento y Síntesis de Texto a Video Guiada por Estructura. El módulo de Recuperación de Estructura de Movimiento proporciona candidatos de video que coinciden con la escena o el contexto de movimiento solicitado según los textos de consulta. Para esto, se extraen estructuras de movimiento utilizando un sistema comercial de recuperación de video. El segundo módulo, Síntesis de Texto a Video Guiada por Estructura, utiliza las indicaciones de texto y la estructura de movimiento como entrada para producir películas que siguen la historia. Se ha creado un modelo para la producción de video personalizable que permite un control flexible sobre la trama y los personajes del video. Los videos creados se adhieren a los elementos de narración previstos siguiendo la dirección estructural y las pautas visuales.
- Un equipo de Australia gana una subvención para fusionar la IA con ...
- ¿Qué pueden hacer los esbozos humanos para la detección de objetos?...
- Los desafíos de Meta’s Llama 2 desafían a ChatGPT de OpenAI U...
Este enfoque pone un fuerte énfasis en preservar la coherencia visual entre las imágenes. El equipo también ha desarrollado una estrategia exitosa de personalización de conceptos para garantizar esto. A través de indicaciones de texto, este método permite a los espectadores seleccionar identidades de personajes preferidas, preservando la uniformidad de las apariencias de los personajes a lo largo del video. Para la evaluación, el equipo ha comparado el enfoque con baselines existentes. Los resultados demostraron ventajas significativas de este enfoque, demostrando su capacidad para generar videos de narración de alta calidad, coherentes y visualmente atractivos.
El equipo ha resumido la contribución de la siguiente manera:
- Se ha introducido un paradigma de síntesis de video narrativo con recuperación mejorada, que por primera vez permite el uso de videos existentes variados para la narración.
- La utilidad del marco está respaldada por hallazgos experimentales, que lo establecen como una herramienta de vanguardia para crear videos que son notablemente fáciles de usar.
- Se ha propuesto un enfoque flexible de texto a video guiado por estructura que reconcilia con éxito la tensión entre la producción de personajes y la guía de estructura.
- El equipo también ha introducido TimeInv, un nuevo concepto en el enfoque de personalización que supera significativamente a sus competidores actuales.