AnomalyGPT Detectando anomalías industriales utilizando LVLMs
AnomalyGPT - Detecting industrial anomalies using LVLMs
Recientemente, los Modelos de Lenguaje de Visión Amplia (LVLMs) como LLava y MiniGPT-4 han demostrado la capacidad de comprender imágenes y lograr alta precisión y eficiencia en varias tareas visuales. Si bien los LVLMs son excelentes para reconocer objetos comunes debido a sus extensos conjuntos de datos de entrenamiento, carecen de conocimientos específicos del dominio y tienen una comprensión limitada de los detalles localizados dentro de las imágenes. Esto limita su efectividad en las tareas de Detección de Anomalías Industriales (IAD, por sus siglas en inglés). Por otro lado, los marcos de IAD existentes solo pueden identificar fuentes de anomalías y requieren ajustes manuales de umbrales para distinguir entre muestras normales y anómalas, lo que restringe su implementación práctica.
El propósito principal de un marco de IAD es detectar y localizar anomalías en escenarios industriales e imágenes de productos. Sin embargo, debido a la imprevisibilidad y rareza de las muestras de imágenes del mundo real, los modelos generalmente se entrenan solo con datos normales. Diferencian las muestras anómalas de las normales en función de las desviaciones de las muestras típicas. Actualmente, los marcos y modelos de IAD proporcionan principalmente puntuaciones de anomalía para las muestras de prueba. Además, distinguir entre instancias normales y anómalas para cada clase de elementos requiere la especificación manual de umbrales, lo que los hace inadecuados para aplicaciones del mundo real.
Para explorar el uso e implementación de los Modelos de Lenguaje de Visión Amplia en la solución de los desafíos planteados por los marcos de IAD, se introdujo AnomalyGPT, un enfoque novedoso de IAD basado en LVLM. AnomalyGPT puede detectar y localizar anomalías sin necesidad de ajustes manuales de umbrales. Además, AnomalyGPT también puede ofrecer información pertinente sobre la imagen para interactuar con los usuarios, lo que les permite hacer preguntas de seguimiento basadas en la anomalía o sus necesidades específicas.
Detección de Anomalías Industriales y Modelos de Lenguaje de Visión Amplia
Los marcos de IAD existentes se pueden clasificar en dos categorías.
- Anotación de imágenes de código cerrado frente a código abierto
- Conoce TensorRT-LLM una biblioteca de código abierto que acelera y ...
- Investigadores de Microsoft presentan InstructDiffusion un marco de...
- IAD basada en reconstrucción.
- IAD basada en incrustación de características.
En un marco de IAD basado en reconstrucción, el objetivo principal es reconstruir muestras anómalas a sus respectivas muestras normales correspondientes y detectar anomalías mediante el cálculo del error de reconstrucción. SCADN, RIAD, AnoDDPM e InTra utilizan diferentes marcos de reconstrucción que van desde Redes Generativas Adversarias (GAN) y autoencoders hasta modelos de difusión y transformadores.
Por otro lado, en un marco de IAD basado en incrustación de características, el objetivo principal es centrarse en modelar la incrustación de características de los datos normales. Métodos como PatchSSVD intentan encontrar una hiperesfera que pueda encapsular muestras normales de manera ajustada, mientras que los marcos como PyramidFlow y Cfl proyectan muestras normales en una distribución gaussiana utilizando flujos de normalización. Los marcos CFA y PatchCore han establecido un banco de memoria de muestras normales a partir de incrustaciones de parches, y utilizan la distancia entre la incrustación de la muestra de prueba y la incrustación normal para detectar anomalías.
Ambos métodos siguen el paradigma de aprendizaje “una clase un modelo”, que requiere una gran cantidad de muestras normales para aprender las distribuciones de cada clase de objeto. El requisito de una gran cantidad de muestras normales hace que sea impráctico para categorías de objetos novedosos y con aplicaciones limitadas en entornos de productos dinámicos. Por otro lado, el marco de AnomalyGPT utiliza un paradigma de aprendizaje en contexto para categorías de objetos, lo que le permite permitir interferencias solo con un puñado de muestras normales.
Avanzando, tenemos los Modelos de Lenguaje de Visión Amplia o LVLMs. Los LLMs o Modelos de Lenguaje Amplio han tenido un gran éxito en la industria de Procesamiento del Lenguaje Natural (NLP) y ahora se están explorando sus aplicaciones en tareas visuales. El marco BLIP-2 aprovecha Q-former para ingresar características visuales del Transformer de Visión en el modelo Flan-T5. Además, el marco MiniGPT conecta el segmento de imagen del marco BLIP-2 y el modelo Vicuna con una capa lineal, y realiza un proceso de ajuste fino en dos etapas utilizando datos de imagen y texto. Estos enfoques indican que los marcos LLM pueden tener algunas aplicaciones para tareas visuales. Sin embargo, estos modelos han sido entrenados con datos generales y carecen de la experiencia específica del dominio requerida para aplicaciones generalizadas.
¿Cómo funciona AnomalyGPT?
AnomalyGPT en su núcleo es un nuevo modelo de lenguaje de visión amplia de detección de anomalías industrial conversacional diseñado principalmente para detectar anomalías industriales y señalar su ubicación exacta utilizando imágenes. El marco AnomalyGPT utiliza un LVLM y un codificador de imágenes preentrenado para alinear las imágenes con sus descripciones textuales correspondientes utilizando datos de anomalías estimuladas. El modelo introduce un módulo decodificador y un módulo de aprendizaje de indicaciones para mejorar el rendimiento de los sistemas de IAD y lograr una salida de localización a nivel de píxeles.
Arquitectura del Modelo
La imagen anterior muestra la arquitectura de AnomalyGPT. El modelo primero pasa la imagen de consulta al codificador de imágenes congeladas. Luego, el modelo extrae características a nivel de parche de las capas intermedias y alimenta estas características a un decodificador de imágenes para calcular su similitud con textos anormales y normales y obtener los resultados de localización. El aprendiz de indicación luego las convierte en incrustaciones de indicación que son adecuadas para ser utilizadas como entradas en el LLM junto con las entradas de texto del usuario. El modelo LLM luego aprovecha las incrustaciones de indicación, las entradas de imagen y las entradas de texto proporcionadas por el usuario para detectar anomalías, señalar su ubicación y crear respuestas finales para el usuario.
Decodificador
Para lograr la localización de anomalías a nivel de píxel, el modelo AnomalyGPT utiliza un decodificador de imágenes basado en coincidencia de características liviano que admite tanto marcos de trabajo de IAD de pocas muestras como marcos de trabajo de IAD no supervisados. El diseño del decodificador utilizado en AnomalyGPT está inspirado en los marcos de trabajo WinCLIP, PatchCore y APRIL-GAN. El modelo divide el codificador de imágenes en 4 etapas y extrae las características intermedias a nivel de parche en cada etapa.
Sin embargo, estas características intermedias no han pasado por el alineamiento final de imagen-texto, por lo que no se pueden comparar directamente con características. Para abordar este problema, el modelo AnomalyGPT introduce capas adicionales para proyectar características intermedias y alinearlas con características de texto que representan semántica normal y anormal.
Aprendiz de Indicación
El marco de trabajo AnomalyGPT presenta un aprendiz de indicación que intenta transformar el resultado de localización en incrustaciones de indicación para aprovechar la semántica detallada de las imágenes y también mantener la consistencia semántica entre las salidas del decodificador y el LLM. Además, el modelo incorpora incrustaciones de indicación aprendibles, no relacionadas con las salidas del decodificador, en el aprendiz de indicación para proporcionar información adicional para la tarea de IAD. Finalmente, el modelo alimenta las incrustaciones y la información original de la imagen al LLM.
El aprendiz de indicación consta de incrustaciones de indicación base aprendibles y una red neuronal convolucional. La red convierte el resultado de localización en incrustaciones de indicación y forma un conjunto de incrustaciones de indicación que luego se combinan con las incrustaciones de imagen en el LLM.
Simulación de Anomalías
El modelo AnomalyGPT adopta el método NSA para simular datos anómalos. El método NSA utiliza la técnica de corte y pegado mediante el uso del método de edición de imágenes de Poisson para aliviar la discontinuidad introducida al pegar segmentos de imagen. El corte y pegado es una técnica comúnmente utilizada en los marcos de trabajo de IAD para generar imágenes de anomalías simuladas.
El método de corte y pegado implica recortar una región de bloque de una imagen al azar y pegarla en una ubicación aleatoria en otra imagen, creando así una porción de anomalía simulada. Estas muestras de anomalía simulada pueden mejorar el rendimiento de los modelos de IAD, pero tienen una desventaja, ya que a menudo pueden producir discontinuidades perceptibles. El método de edición de Poisson tiene como objetivo clonar sin problemas un objeto de una imagen a otra resolviendo las ecuaciones diferenciales parciales de Poisson.
La imagen anterior ilustra la comparación entre la edición de imágenes de Poisson y el corte y pegado. Como se puede ver, hay discontinuidades visibles en el método de corte y pegado, mientras que los resultados de la edición de Poisson parecen más naturales.
Contenido de Preguntas y Respuestas
Para llevar a cabo la sintonización de indicaciones en el Modelo de Lenguaje de Visión Grande, el modelo AnomalyGPT genera una consulta textual correspondiente en base a la imagen de anomalía. Cada consulta consta de dos componentes principales. La primera parte de la consulta consiste en una descripción de la imagen de entrada que proporciona información sobre los objetos presentes en la imagen junto con sus atributos esperados. La segunda parte de la consulta es detectar la presencia de anomalías dentro del objeto o verificar si hay una anomalía en la imagen.
El LVLM responde primero a la consulta de si hay una anomalía en la imagen. Si el modelo detecta anomalías, continúa especificando la ubicación y el número de las áreas anómalas. El modelo divide la imagen en una cuadrícula de 3×3 de regiones distintas para permitir que el LVLM indique verbalmente la posición de las anomalías como se muestra en la figura a continuación.
El modelo LVLM recibe el conocimiento descriptivo de la entrada junto con el conocimiento fundamental de la imagen de entrada que ayuda a la comprensión del modelo de los componentes de la imagen.
Conjuntos de datos y métricas de evaluación
El modelo realiza sus experimentos principalmente en los conjuntos de datos VisA y MVTec-AD. El conjunto de datos MVTech-AD consta de 3629 imágenes para fines de entrenamiento y 1725 imágenes para pruebas que se dividen en 15 categorías diferentes, por lo que es uno de los conjuntos de datos más populares para los marcos de IAD. Las características de las imágenes de entrenamiento son solo imágenes normales, mientras que las imágenes de prueba incluyen tanto imágenes normales como anómalas. Por otro lado, el conjunto de datos VisA consta de 9621 imágenes normales y casi 1200 imágenes anómalas distribuidas en 12 categorías diferentes.
Continuando, al igual que el marco de IAD existente, el modelo AnomalyGPT utiliza el AUC o área bajo la curva de características de operación del receptor como su métrica de evaluación, utilizando el AUC a nivel de píxel y a nivel de imagen para evaluar el rendimiento de localización de anomalías y detección de anomalías, respectivamente. Sin embargo, el modelo también utiliza la precisión a nivel de imagen para evaluar el rendimiento de su enfoque propuesto, ya que permite determinar la presencia de anomalías sin la necesidad de establecer los umbrales manualmente.
Resultados
Resultados cuantitativos
Detección de anomalías industriales de pocos disparos
El modelo AnomalyGPT compara sus resultados con los marcos de IAD de pocos disparos anteriores, incluidos PaDiM, SPADE, WinCLIP y PatchCore, como referencias.
La figura anterior compara los resultados del modelo AnomalyGPT en comparación con los marcos de IAD de pocos disparos. En ambos conjuntos de datos, el método seguido por AnomalyGPT supera a los enfoques adoptados por modelos anteriores en términos de AUC a nivel de imagen, y también devuelve una buena precisión.
Detección de anomalías industriales no supervisada
En un entorno de entrenamiento no supervisado con un gran número de muestras normales, AnomalyGPT entrena un solo modelo en muestras obtenidas de todas las clases dentro de un conjunto de datos. Los desarrolladores de AnomalyGPT han optado por el marco UniAD porque se entrena bajo la misma configuración y actuará como referencia para la comparación. Además, el modelo también se compara con los marcos JNLD y PaDim utilizando la misma configuración unificada.
La figura anterior compara el rendimiento de AnomalyGPT en comparación con otros marcos.
Resultados cualitativos
La imagen anterior ilustra el rendimiento del modelo AnomalyGPT en el método de detección de anomalías no supervisado, mientras que la figura a continuación muestra el rendimiento del modelo en el aprendizaje contextual de 1 disparo.
El modelo AnomalyGPT es capaz de indicar la presencia de anomalías, marcar su ubicación y proporcionar resultados de localización a nivel de píxel. Cuando el modelo se encuentra en el método de aprendizaje contextual de 1 disparo, el rendimiento de localización del modelo es ligeramente menor en comparación con el aprendizaje no supervisado debido a la falta de entrenamiento.
Conclusión
AnomalyGPT es un nuevo modelo conversacional de detección de anomalías de lenguaje IAD-visión diseñado para aprovechar las poderosas capacidades de los grandes modelos de lenguaje de visión. No solo puede identificar anomalías en una imagen, sino también señalar sus ubicaciones exactas. Además, AnomalyGPT facilita diálogos de múltiples turnos centrados en la detección de anomalías y muestra un rendimiento sobresaliente en el aprendizaje contextual de pocos disparos. AnomalyGPT explora las posibles aplicaciones de los LVLM en la detección de anomalías, presentando nuevas ideas y posibilidades para la industria de IAD.