Investigadores de CMU proponen la adaptación en tiempo de prueba con modelos centrados en ranuras (Slot-TTA) un modelo semi-supervisado equipado con un cuello de botella centrado en ranuras que segmenta y reconstruye escenas de manera conjunta.

Investigadores de CMU proponen Slot-TTA, un modelo semi-supervisado que segmenta y reconstruye escenas de manera conjunta.

Una de las tareas más desafiantes y críticas de la visión por computadora es la segmentación de instancias. La capacidad de delinear y categorizar con precisión objetos dentro de imágenes o nubes de puntos 3D es fundamental para diversas aplicaciones, desde la conducción autónoma hasta el análisis de imágenes médicas. A lo largo de los años, se ha logrado un tremendo progreso en el desarrollo de modelos de segmentación de instancias de vanguardia. Sin embargo, estos modelos a menudo necesitan ayuda con escenarios y conjuntos de datos del mundo real que se desvían de su distribución de entrenamiento. Este desafío de adaptar modelos de segmentación para manejar estos escenarios fuera de distribución (OOD) ha estimulado una investigación innovadora. Una de las enfoques pioneros que ha recibido una atención significativa es Slot-TTA (Adaptación en tiempo de prueba).

En el campo en rápido desarrollo de la visión por computadora, los modelos de segmentación de instancias han dado grandes avances, permitiendo a las máquinas reconocer y segmentar con precisión objetos dentro de imágenes y nubes de puntos 3D. Estos modelos se han convertido en la base de numerosas aplicaciones, desde el análisis de imágenes médicas hasta los autos autónomos. Sin embargo, se enfrentan a un adversario común y formidable: adaptarse a escenarios y conjuntos de datos del mundo real que se extienden más allá de sus datos de entrenamiento. Esta incapacidad para hacer una transición sin problemas de un dominio a otro representa un obstáculo sustancial para implementar estos modelos de manera efectiva.

Investigadores de la Universidad Carnegie Mellon, Google Deepmind y Google Research presentaron una solución innovadora llamada Slot-TTA para abordar este desafío. Este enfoque novedoso está diseñado para la adaptación en tiempo de prueba (TTA) en la segmentación de instancias. Slot-TTA combina las capacidades de componentes de renderización de imágenes y nubes de puntos centrados en ranuras con técnicas de segmentación de vanguardia. La idea principal detrás de Slot-TTA es permitir que los modelos de segmentación de instancias se adapten dinámicamente a escenarios OOD, mejorando significativamente su precisión y versatilidad.

Slot-TTA se basa en el Índice de Rand Ajustado (ARI) como su métrica de evaluación primaria de segmentación. Se somete a un riguroso entrenamiento y evaluación en una variedad de conjuntos de datos, que abarcan imágenes RGB en múltiples vistas, imágenes RGB en vista única y nubes de puntos 3D complejas. La característica distintiva de Slot-TTA es su capacidad para aprovechar la retroalimentación de reconstrucción para la adaptación en tiempo de prueba. Esta innovación implica el refinamiento iterativo de la calidad de segmentación y renderización para puntos de vista y conjuntos de datos no vistos previamente.

En imágenes RGB en múltiples vistas, Slot-TTA se presenta como un competidor formidable. Su adaptabilidad se demuestra mediante una evaluación exhaustiva del conjunto de datos MultiShapeNetHard (MSN). Este conjunto de datos consta de más de 51,000 objetos ShapeNet, meticulosamente renderizados con fondos HDR del mundo real. Cada escena en el conjunto de datos MSN tiene nueve imágenes renderizadas RGB en poses estratégicamente divididas en vistas de entrada y objetivo para el entrenamiento y prueba de Slot-TTA. Los investigadores se aseguran de que no haya superposición entre las instancias de objetos y el número de objetos presentes en las escenas entre los conjuntos de entrenamiento y prueba. Esta construcción rigurosa del conjunto de datos es crucial para evaluar la robustez de Slot-TTA.

En la evaluación, Slot-TTA se enfrenta a varios puntos de referencia, incluidos Mask2Former, Mask2Former-BYOL, Mask2Former-Recon y Semantic-NeRF. Estos puntos de referencia se utilizan para comparar el rendimiento de Slot-TTA dentro y fuera de la distribución de entrenamiento. Los resultados son sorprendentes.

En primer lugar, Slot-TTA con TTA supera a Mask2Former, un segmentador de imágenes 2D de vanguardia, especialmente en escenas OOD. Esto demuestra la superioridad de Slot-TTA cuando se trata de adaptarse a diversos escenarios del mundo real.

En segundo lugar, la adición de pérdidas auto-supervisadas de Bartler et al. (2022) en Mask2Former-BYOL no produce mejoras, lo que subraya que no todos los métodos de TTA son igualmente efectivos.

En tercer lugar, Slot-TTA sin supervisión de segmentación, una variante entrenada únicamente para la síntesis de imágenes entre vistas similares a OSRT (Sajjadi et al., 2022a), tiene un rendimiento significativamente inferior en comparación con un segmentador supervisado como Mask2Former. Esta observación enfatiza la indispensabilidad de la supervisión de segmentación durante el entrenamiento para una TTA efectiva.

La capacidad de Slot-TTA se extiende a la síntesis y descomposición de vistas de imágenes RGB novedosas y no vistas. Utilizando el mismo conjunto de datos y división de entrenamiento y prueba que antes, los investigadores evalúan la calidad de reconstrucción precisa de píxeles de Slot-TTA y la precisión de ARI de segmentación para cinco vistas novedosas y no vistas. Esta evaluación incluye vistas que no se vieron durante el entrenamiento de TTA. Los resultados son asombrosos.

La calidad de renderizado de Slot-TTA en estos puntos de vista no vistos mejora significativamente con la adaptación en tiempo de prueba, demostrando su capacidad para mejorar la segmentación y la calidad de renderizado en escenarios novedosos. En contraste, Semantic-NeRF, un competidor formidable, lucha por generalizar a estos puntos de vista no vistos, resaltando la adaptabilidad y el potencial de Slot-TTA.

En conclusión, Slot-TTA representa un gran avance en visión por computadora, abordando el desafío de adaptar modelos de segmentación a escenarios del mundo real diversos. Al combinar técnicas de renderizado centradas en slots, métodos avanzados de segmentación y adaptación en tiempo de prueba, Slot-TTA ofrece mejoras notables en precisión y versatilidad de la segmentación. Esta investigación no solo revela las limitaciones del modelo, sino que también allana el camino para futuras innovaciones en visión por computadora. Slot-TTA promete mejorar la adaptabilidad de los modelos de segmentación de instancias en el siempre cambiante panorama de la visión por computadora.