Investigadores de Cornell y Tel Aviv presentan Doppelgangers Aprendiendo a Desambiguar Imágenes de Estructuras Similares

Investigadores de Cornell y Tel Aviv presentan Doppelgangers Desambiguando Imágenes de Estructuras Similares

Mira las imágenes de arriba. ¿Puedes notar la diferencia? Es como tratar de diferenciar entre gemelos. ¿Quizás uno tiene el pelo ligeramente más corto? ¿O no lo tiene? En el ámbito de los sistemas de visión por computadora, ocurre un problema similar. Esta investigación se centra en tareas de visión geométrica, como la reconstrucción 3D, donde estos métodos encuentran con frecuencia el desafío de discernir si dos imágenes representan superficies 3D idénticas en el mundo real o dos superficies 3D distintas que se parecen mucho. Determinaciones incorrectas en este sentido pueden resultar en modelos 3D erróneos. Esta tarea se llama “desambiguación visual”.

La solución propuesta por los investigadores de Cornell implica la creación de un nuevo conjunto de datos llamado “Doppelgangers”, que comprende pares de imágenes que representan la misma superficie (positivos) o dos superficies visiblemente similares pero distintas (negativos). La construcción del conjunto de datos Doppelgangers fue una tarea desafiante, ya que incluso los humanos pueden tener dificultades para diferenciar entre imágenes idénticas y similares. El enfoque aprovecha las anotaciones de imágenes existentes de la base de datos de imágenes de Wikimedia Commons para generar automáticamente un conjunto sustancial de pares de imágenes etiquetadas.

Podemos resumir las contribuciones en la imagen anterior de la siguiente manera:

(a) Al presentar un par de imágenes, se extraen puntos clave y coincidencias mediante la aplicación de métodos de coincidencia de características. Es importante destacar que, en este escenario específico, las imágenes representan un par negativo (doppelganger) que muestra lados opuestos del Arco del Triunfo. Se observa que las coincidencias de características se concentran principalmente en el segmento superior de la estructura, caracterizado por elementos repetitivos, en contraste con la sección inferior que presenta esculturas.

(b) Posteriormente se crean máscaras binarias para los puntos clave y las coincidencias. A continuación, tanto el par de imágenes como las máscaras se alinean mediante una transformación afín, que se determina en función de las coincidencias identificadas.

(c) El clasificador utilizado en este contexto toma la concatenación de las imágenes y las máscaras binarias como entrada y produce una probabilidad de salida. Esta probabilidad sirve como indicación de la probabilidad de que el par dado constituya una coincidencia positiva.

Sin embargo, se observó que entrenar un modelo de red profunda directamente con estos pares de imágenes en bruto producía resultados insatisfactorios. Para abordar este problema, se diseñó una arquitectura de red especializada. Esta red incorpora información valiosa en forma de características locales y correspondencia 2D para mejorar el rendimiento de la tarea de desambiguación visual.

En la evaluación utilizando el conjunto de pruebas Doppelgangers, este método propuesto demuestra un rendimiento impresionante en la resolución de tareas de desambiguación complejas. Supera tanto a los enfoques de referencia como a los diseños alternativos de redes por un margen significativo. Además, el estudio investiga la utilidad del clasificador aprendido como un filtro de preprocesamiento sencillo en los cálculos de gráficos de escena dentro de las tuberías de estructura a partir del movimiento, como COLMAP.

En general, estos hallazgos resaltan el potencial de este enfoque para mejorar la confiabilidad y precisión de los sistemas de visión por computadora en tareas relacionadas con la reconstrucción 3D y la desambiguación visual. Esta investigación aporta conocimientos y herramientas valiosas al campo de la visión por computadora, con aplicaciones prometedoras en escenarios del mundo real que requieren reconocimiento y reconstrucción precisa de superficies.