Conoce a SegGPT Un modelo generalista que realiza tareas de segmentación arbitrarias en imágenes o videos a través de inferencia en contexto

SegGPT es un modelo generalista que realiza segmentación arbitraria en imágenes o videos mediante inferencia contextual.

En visión por computadora, que busca localizar y reorganizar conceptos significativos a nivel de píxeles, como primer plano, categoría, instancia de objeto, etc., la segmentación es uno de los desafíos más fundamentales. Para una variedad de tareas de segmentación, incluyendo segmentación de primer plano, segmentación interactiva, segmentación semántica, segmentación de instancias y segmentación panóptica, se han logrado avances considerable en los últimos años. Sin embargo, estos modelos de segmentación expertos están restringidos a tareas, clasificaciones, granularidades, formatos de datos, etc. particulares. Se debe entrenar un nuevo modelo al adaptarse a un nuevo entorno, como la segmentación de un nuevo concepto u objetos en videos en lugar de imágenes.

En este estudio, su objetivo es entrenar un solo modelo que pueda manejar una variedad infinita de tareas de segmentación. Esto requiere un trabajo de anotación que consume mucho tiempo y debe ser más sostenible para muchas tareas de segmentación. Las principales dificultades radican en dos áreas: (1) la incorporación de diferentes tipos de datos en el entrenamiento, como parte, semántica, instancia, panóptica, personas, imágenes médicas, imágenes aéreas, etc.; y (2) la creación de un esquema de entrenamiento generalizable que difiere del aprendizaje multitarea tradicional, que es flexible en la definición de tareas y puede manejar tareas que están fuera de su ámbito. Para superar estos problemas, los investigadores de la Academia de Beijing, la Universidad de Zhejiang y la Universidad de Pekín presentan SegGPT, un paradigma generalista para segmentar cualquier cosa en contexto.

Integran muchas tareas de segmentación en un marco generalista de aprendizaje en contexto y ven la segmentación como un formato genérico para la percepción visual. Este marco puede manejar varios tipos de datos de segmentación convirtiéndolos al mismo formato de imagen. Utilizando una asignación de colores aleatorios para cada muestra de datos, el problema de entrenamiento de SegGPT se plantea como un problema de coloración en contexto. El objetivo es colorear solo las áreas asociadas, como clases, instancias de objetos, componentes, etc., en función del contexto. Al emplear un esquema de coloración aleatoria, el modelo se ve obligado a consultar datos contextuales para ejecutar la tarea dada en lugar de depender de ciertos tonos. Esto permite abordar el entrenamiento de una manera más adaptable y genérica.

Los componentes de entrenamiento restantes se mantienen iguales al utilizar un ViT estándar y una pérdida suave de tipo l1. Después del entrenamiento, SegGPT puede utilizar inferencia en contexto para ejecutar varias tareas de segmentación en imágenes o videos dada unas pocas instancias, como instancia de objeto, objeto, porción, contorno, texto, etc. Sugieren una técnica de conjunto de contexto sencilla pero poderosa, el conjunto destacado, que puede ayudar al modelo a aprovechar el escenario de solicitud de múltiples ejemplos. Al adaptar una solicitud personalizada para un caso de uso especializado, como la segmentación semántica ADE20K en dominio, SegGPT también puede funcionar fácilmente como un modelo especialista sin modificar los parámetros del modelo.

Estas son sus principales contribuciones.

(1) Por primera vez, muestran un solo modelo generalista que puede completar automáticamente una amplia gama de tareas de segmentación.

(2) Para varias tareas, como segmentación semántica con pocos ejemplos, segmentación de objetos en video, segmentación semántica y segmentación panóptica, evalúan directamente el SegGPT pre-entrenado, es decir, sin ajuste fino.

(3) Tanto subjetivamente como estadísticamente, sus resultados demuestran grandes habilidades para segmentar objetivos dentro y fuera del dominio. Sin embargo, su estudio no promete alcanzar nuevos resultados de vanguardia o superar en rendimiento a los enfoques especializados existentes en todos los puntos de referencia, ya que consideran que un modelo de propósito general puede no ser capaz de manejar ciertas tareas.