Investigadores de Google presentan un nuevo enfoque de inteligencia artificial para modelar una prioridad de espacio de imagen en relación a la dinámica de la escena
Investigadores de Google presentan nuevo enfoque de IA para modelar prioridad de espacio de imagen según dinámica de la escena.
Incluso las imágenes aparentemente inmóviles incluyen oscilaciones minúsculas debido a cosas como el viento, las corrientes de agua, la respiración u otros ritmos naturales. Esto se debe a que el mundo natural está constantemente en movimiento. Los humanos son especialmente sensibles al movimiento, lo que lo convierte en una de las señales visuales más prominentes. Las imágenes tomadas sin movimiento (o incluso con un movimiento algo fantasioso) a veces parecen inquietantes o surrealistas. Sin embargo, para las personas es fácil comprender o imaginar el movimiento en una escena. Enseñar a un modelo a adquirir movimiento realista es más complejo. La dinámica física de una escena, o las fuerzas que actúan sobre las cosas debido a sus características físicas específicas, como su masa, elasticidad, etc., producen el movimiento que las personas ven en el mundo exterior.
Estas fuerzas y cualidades son difíciles de cuantificar y capturar a gran escala, pero afortunadamente, a menudo no es necesario cuantificarlas, ya que se pueden capturar y aprender del movimiento observado. Aunque este movimiento observable es multimodal y se basa en procesos físicos complejos, a menudo es predecible: las velas tiemblan en patrones específicos y los árboles se balancean y agitan sus hojas. Pueden imaginar movimientos plausibles que podrían haber estado en progreso cuando se tomó la foto o, si puede haber habido muchos movimientos posibles, una distribución de movimientos naturales condicionados a esa imagen al mirar una imagen fija. Esta previsibilidad está arraigada en su percepción humana de escenas reales.
Figura 1: Se puede ver cómo el método simula un espacio de imágenes generativo previo a la dinámica de la escena. A partir de una sola imagen RGB, el modelo crea una textura neuronal estocástica de movimiento, una representación de movimiento que simula trayectorias de movimiento densas a largo plazo en el dominio de Fourier. Demuestran cómo sus suposiciones de movimiento se pueden utilizar para tareas como convertir una sola imagen en una película que se repite fluidamente o imitar la dinámica de un objeto en respuesta a la estimulación interactiva del usuario (como arrastrar y soltar un punto del objeto). Utilizan cortes espacio-temporales X-t durante 10 segundos de video (a lo largo de la línea de escaneo mostrada en la imagen de entrada) para visualizar las películas de salida a la derecha.
Simular esta distribución similar digitalmente es un tema de investigación natural, dado lo fácil que los humanos pueden visualizar estos movimientos potenciales. Ahora hemos podido simular distribuciones extremadamente ricas y complicadas, incluidas distribuciones de imágenes reales condicionadas por texto, gracias a los avances recientes en modelos generativos, particularmente modelos de difusión condicional. Numerosas aplicaciones anteriormente impracticables, incluida la producción condicionada por texto de material visual aleatorio, variado y realista, se han vuelto viables gracias a esta capacidad. Investigaciones recientes han demostrado que modelar dominios adicionales, como videos y geometría 3D, puede ser igualmente beneficioso para aplicaciones posteriores a la luz del éxito de estos modelos de imágenes.
- Conoce AudioSR Una solución de IA Plug & Play y One-for-All par...
- LLMs y Grafos de Conocimiento
- ¿Cuál es el futuro de la asistencia conversacional en la era de Cha...
En este artículo, investigadores de Google Research investigan la modelización de un prior generativo para el movimiento de cada píxel en una sola imagen, también conocido como movimiento de escena en el espacio de imágenes. Este modelo se entrena utilizando trayectorias de movimiento recuperadas automáticamente de un gran número de secuencias de video genuinas. El modelo entrenado pronostica una textura neuronal estocástica de movimiento basada en una imagen de entrada, una colección de coeficientes de base de movimiento que describen la trayectoria futura de cada píxel. Eligen la serie de Fourier como sus funciones de base para limitar su análisis a escenarios del mundo real con dinámicas oscilantes, como árboles y flores moviéndose con el viento. Pronostican una textura neuronal estocástica de movimiento utilizando un modelo de difusión que produce coeficientes para una sola frecuencia a la vez pero coordina estas predicciones en bandas de frecuencia.
Como se muestra en la Fig. 1, las texturas generadas en el espacio de frecuencia se pueden convertir en trayectorias de movimiento de píxeles densas y de largo alcance que sintetizan fotogramas futuros con un modelo de difusión de renderizado basado en imágenes, convirtiendo imágenes estáticas en animaciones realistas. Los priors sobre la captura de movimiento tienen una estructura subyacente más básica y de menor dimensión que los priors sobre píxeles RGB en bruto, lo que explica de manera más efectiva las fluctuaciones en los valores de los píxeles. A diferencia de técnicas anteriores que logran animación visual utilizando síntesis de video en bruto, su representación de movimiento permite una producción a largo plazo más coherente y un control más detallado de las animaciones. Además, muestran cómo su representación de movimiento generada facilita su uso para diversas aplicaciones posteriores, incluida la creación de videos que se repiten sin problemas, la edición del movimiento inducido y la posibilidad de imágenes dinámicas interactivas que simulan cómo reaccionaría un objeto a las fuerzas aplicadas por el usuario.