¿Dentro o fuera? Arreglando la evaluación de detección fuera de distribución en ImageNet (Resumen del artículo)

Inside or outside? Fixing out-of-distribution detection evaluation in ImageNet (Article summary)

La detección fuera de distribución (OOD) en modelos de aprendizaje profundo, particularmente en clasificación de imágenes, aborda el desafío de identificar entradas que no están relacionadas con la tarea de entrenamiento del modelo. Su objetivo es evitar que el modelo haga predicciones confiadas pero incorrectas en las entradas OOD, mientras clasifica con precisión las entradas de distribución (ID). Al distinguir entre entradas ID y OOD, los métodos de detección OOD mejoran la robustez y confiabilidad del modelo en aplicaciones del mundo real.

Una debilidad en las evaluaciones actuales de detección OOD en clasificación de imágenes, específicamente en cuanto a conjuntos de datos relacionados con ImageNet-1K (IN-1K), es la presencia de objetos ID dentro de los conjuntos de datos OOD. Este problema lleva a la clasificación incorrecta de objetos ID como OOD por parte de los detectores OOD de última generación. En consecuencia, la evaluación de los métodos de detección OOD se ve afectada, lo que resulta en una subestimación del rendimiento real de detección OOD y en una penalización injusta de los detectores OOD más efectivos.

Recientemente se publicó un nuevo artículo en el que los autores buscan abordar las limitaciones en la evaluación de los métodos de detección OOD. Introducen un nuevo conjunto de datos de prueba, NINCO, que contiene muestras OOD sin objetos de las clases ImageNet-1K (ID). También proporcionan “pruebas unitarias OOD” sintéticas para evaluar las debilidades en los detectores OOD. El artículo evalúa varias arquitecturas y métodos en NINCO, proporcionando información sobre las debilidades del modelo y el impacto del preentrenamiento en el rendimiento de detección OOD. El objetivo es mejorar la evaluación y comprensión de los métodos de detección OOD.

Los autores proponen la creación de un nuevo conjunto de datos llamado NINCO (No ImageNet Class Objects) para abordar las limitaciones en la evaluación de los métodos de detección OOD. Seleccionan cuidadosamente las clases base de conjuntos de datos existentes o recién extraídos, considerando su interpretación no permisiva para asegurarse de que no formen parte categóricamente de las clases ImageNet-1K (ID). Los autores inspeccionan visualmente cada imagen en las clases base para eliminar las muestras que contienen objetos ID o donde no se visible ningún objeto de la clase OOD. Este proceso de limpieza manual garantiza un conjunto de datos de mayor calidad.

NINCO consta de 64 clases OOD con un total de 5.879 muestras obtenidas de varios conjuntos de datos, incluyendo SPECIES, PLACES, FOOD-101, CALTECH-101, MYNURSINGHOME, ImageNet-21k y recién extraídos de iNaturalist.org y otros sitios web. Además, los autores proporcionan versiones limpias de 2.715 imágenes OOD de once conjuntos de datos OOD de prueba para evaluar posibles contaminaciones ID.

Los autores también proponen el uso de pruebas unitarias OOD, entradas de imagen simples y sintéticamente generadas diseñadas para evaluar las debilidades de detección OOD. Sugieren evaluar el rendimiento de un detector OOD en estas pruebas unitarias por separado y contar el número de pruebas fallidas (FPR por encima de un umbral definido por el usuario) junto con la evaluación general en un conjunto de datos OOD de prueba como NINCO. Estas pruebas unitarias proporcionan información valiosa sobre debilidades específicas que los detectores pueden encontrar en la práctica. En general, los autores proponen NINCO como un conjunto de datos de alta calidad para evaluar los métodos de detección OOD y sugieren el uso de pruebas unitarias OOD para obtener información adicional sobre las debilidades de un detector.

El artículo presenta evaluaciones detalladas de los métodos de detección OOD en el conjunto de datos NINCO y las pruebas unitarias. Los autores analizan el rendimiento de varias arquitecturas y métodos de detección OOD, revelando información sobre las debilidades del modelo y el impacto del preentrenamiento en el rendimiento de detección OOD. Al evaluar el conjunto de datos NINCO, el estudio evalúa diferentes modelos IN-1K obtenidos de la biblioteca timm y métodos avanzados de detección OOD. Las técnicas basadas en características como Maha, RMaha y ViM funcionan mejor que el MSP de referencia. Max-Logit y Energy también demuestran mejoras notables en comparación con MSP. Los resultados de rendimiento difieren según el modelo elegido y el método de detección OOD. El preentrenamiento resulta influyente ya que contribuye a mejorar el rendimiento ID y la generación de incrustaciones de características superiores para la detección OOD.

En conclusión, el estudio aborda las limitaciones en la evaluación de los métodos de detección OOD en la clasificación de imágenes. Introduce el conjunto de datos NINCO, que contiene muestras OOD sin ningún objeto de las clases ImageNet-1K (ID), y propone el uso de pruebas unitarias OOD para evaluar las debilidades del detector. Las evaluaciones en NINCO demuestran el rendimiento de diferentes modelos y métodos de detección OOD, destacando la efectividad de las técnicas basadas en características y el impacto del preentrenamiento. NINCO mejora la evaluación y comprensión de los métodos de detección OOD al ofrecer un conjunto de datos limpio y conocimientos sobre las debilidades del detector. Los hallazgos enfatizan la importancia de mejorar las evaluaciones de detección OOD y comprender las fortalezas y limitaciones de los métodos actuales.