Un equipo de investigación de Google, Cornell y UC Berkeley presentó OmniMotion un método de inteligencia artificial revolucionario para la estimación de movimiento denso y de largo alcance en videos.

A research team from Google, Cornell, and UC Berkeley presented OmniMotion, a revolutionary AI method for dense and long-range motion estimation in videos.

El seguimiento de características dispersas o el flujo óptico denso han sido históricamente las dos metodologías principales utilizadas en los algoritmos de estimación de movimiento. Ambos tipos de métodos han tenido éxito en sus aplicaciones particulares. Sin embargo, ninguna de las representaciones captura completamente el movimiento de un video: el seguimiento disperso no puede describir el movimiento de todos los píxeles. Por el contrario, el flujo óptico pairwise no puede capturar las trayectorias de movimiento a través de grandes fotogramas temporales. Para reducir esta brecha, se han utilizado muchos métodos para predecir trayectorias de píxeles densas y de largo alcance en videos. Estos van desde técnicas simples de encadenamiento de campos de flujo óptico de dos fotogramas hasta algoritmos más avanzados que pronostican directamente trayectorias por píxel a lo largo de varios fotogramas.

Sin embargo, todos estos enfoques ignoran la información del contexto temporal o geográfico actual al calcular la velocidad. Esta localización puede causar que las estimaciones de movimiento tengan inconsistencias espacio-temporales y errores acumulativos en trayectorias extendidas. Incluso cuando las técnicas pasadas tenían en cuenta el contexto de largo alcance, lo hacían en el dominio 2D, lo que llevaba a la pérdida de seguimiento durante situaciones de oclusión. La creación de trayectorias densas y de largo alcance todavía presenta varios problemas, incluyendo el seguimiento de puntos a través de oclusiones, la preservación de la coherencia en el espacio y el tiempo, y el mantenimiento de pistas precisas a lo largo de períodos prolongados. En este estudio, investigadores de la Universidad de Cornell, Google Research y UC Berkeley proporcionan un método integral para estimar trayectorias de movimiento de longitud completa para cada píxel en una película utilizando todos los datos de video disponibles.

Su enfoque, al que llaman OmniMotion, utiliza una representación cuasi-3D en la que una colección de bijecciones canónicas locales mapea un volumen 3D canónico a volúmenes locales por fotograma. Estas bijecciones describen una combinación de movimiento de cámara y escena como una relajación flexible de la geometría dinámica multivista. Pueden monitorear todos los píxeles, incluso los oscurecidos, y su representación asegura la consistencia del ciclo (“Todo, en todas partes”). Para resolver conjuntamente el movimiento de todo el video “Todo a la vez”, optimizan su representación para cada video. Después de la optimización, cualquier coordenada continua en la película puede consultar su representación para obtener una trayectoria de movimiento que abarque todo.

En conclusión, proporcionan un método que puede manejar películas en el medio silvestre con cualquier combinación de movimiento de cámara y escena:

  1. Genera trayectorias de movimiento de longitud completa globalmente consistentes para todos los puntos en un video completo.
  2. Puede seguir puntos a través de oclusiones.
  3. Puede seguir puntos a través de oclusiones.

Ilustran estadísticamente estas fortalezas en el seguimiento de videos TAP, donde logran un rendimiento de última generación y superan ampliamente todas las técnicas anteriores. Han lanzado varios videos de demostración en su sitio web y planean lanzar el código pronto.

https://omnimotion.github.io/

Como se puede ver en las rutas de movimiento de arriba, proporcionan una técnica novedosa para calcular trayectorias de movimiento de longitud completa para cada píxel en cada fotograma de una película. Solo muestran trayectorias dispersas para objetos en primer plano para mantener la claridad, a pesar de que su técnica calcula el movimiento para todos los píxeles. Su enfoque produce un movimiento de largo alcance preciso y coherente, incluso para objetos que se mueven rápidamente, y realiza un seguimiento de manera confiable a través de oclusiones, como se demuestra en las instancias del perro y el columpio. El objeto en movimiento se muestra en la segunda fila en varios puntos en el tiempo para proporcionar contexto.