Divididos caemos, unidos resistimos CoTracker es un enfoque de IA que rastrea conjuntamente múltiples puntos en un video.
Unidos resistimos, CoTracker es un enfoque de IA para rastrear múltiples puntos en un video.
Los últimos años han estado llenos de avances en la generación de imágenes y los modelos de lenguaje en el ámbito de la IA. Han estado en el centro de atención durante bastante tiempo gracias a sus capacidades revolucionarias. Tanto la generación de imágenes como los modelos de lenguaje han mejorado tanto que es difícil diferenciar las salidas generadas de las reales.
Pero no son las únicas aplicaciones que han avanzado rápidamente en los últimos años. También hemos visto avances impresionantes en las aplicaciones de visión por computadora. El modelo de segmentación de cualquier cosa (SAM) ha abierto nuevas posibilidades en la segmentación de objetos, por ejemplo. SAM puede segmentar cualquier objeto en una imagen o, de manera más impresionante, en un video sin depender de un diccionario de entrenamiento.
La parte del video es especialmente emocionante porque el video siempre se ha considerado un conjunto de datos desafiante para trabajar. Al trabajar con videos, el seguimiento del movimiento juega un aspecto crucial en cualquier tarea que se esté tratando de lograr. Eso sienta las bases del problema.
Un aspecto crucial del seguimiento del movimiento es establecer correspondencias de puntos. Recientemente, ha habido múltiples intentos de realizar estimaciones de movimiento en videos con objetos dinámicos y cámaras en movimiento. Esta tarea desafiante implica estimar la ubicación de puntos en 2D en los fotogramas de video, que representan la proyección de puntos de escena 3D subyacentes.
- Precios dinámicos con el bandolero de múltiples brazos aprendiendo ...
- AWS vs Azure La Batalla Definitiva en la Nube
- Cómo extraer información clave de documentos empresariales utilizan...
Los dos enfoques principales para la estimación de movimiento son el flujo óptico y el seguimiento. El flujo óptico estima la velocidad de todos los puntos dentro de un fotograma de video, mientras que el seguimiento se centra en estimar el movimiento de los puntos durante un período prolongado, tratando los puntos como estadísticamente independientes.
Aunque las técnicas modernas de aprendizaje profundo han avanzado en el seguimiento de puntos, hay un aspecto esencial que se pasa por alto: la correlación entre los puntos rastreados. Intuitivamente, los puntos que pertenecen al mismo objeto físico deberían estar relacionados, sin embargo, los métodos convencionales los tratan de forma independiente, lo que lleva a aproximaciones falsas. Es hora de conocer a CoTracker, que aborda este problema.
CoTracker es un rastreador basado en redes neuronales que tiene como objetivo revolucionar el seguimiento de puntos en secuencias de video largas teniendo en cuenta la correlación entre los puntos rastreados. La red recibe tanto el video como un número variable de ubicaciones iniciales de seguimiento como entrada y produce las trayectorias completas de los puntos especificados.
CoTracker admite el seguimiento conjunto de múltiples puntos y el procesamiento de videos más largos en una aplicación con ventanas. Opera en una cuadrícula 2D de tokens, con una dimensión que representa el tiempo y la otra los puntos de seguimiento. Mediante el uso de operadores de autoatención adecuados, la red basada en transformadores puede considerar cada trayectoria en su totalidad dentro de una ventana e intercambiar información entre las trayectorias, aprovechando sus correlaciones inherentes.
La flexibilidad de CoTracker permite rastrear puntos arbitrarios en cualquier ubicación espacial y tiempo en el video. Toma una versión inicial y aproximada de las trayectorias y las perfecciona de manera incremental para que se ajusten mejor al contenido del video. Las trayectorias se pueden inicializar desde cualquier punto, incluso en medio de un video o desde la salida del propio rastreador, cuando se opera de manera deslizante.
CoTracker representa un avance prometedor en la estimación de movimiento, enfatizando la importancia de considerar las correlaciones entre puntos. Abre el camino para un análisis de video mejorado y abre nuevas posibilidades para tareas posteriores en visión por computadora.