Investigadores de Microsoft presentan InstructDiffusion un marco de IA unificado y genérico para alinear tareas de visión por computadora con instrucciones humanas.

Investigadores de Microsoft presentan InstructDiffusion, un marco de IA para alinear tareas de visión por computadora con instrucciones humanas.

En un avance revolucionario hacia modelos de visión adaptables y generalistas, investigadores de Microsoft Research Asia han presentado InstructDiffusion. Este innovador marco revoluciona el panorama de la visión por computadora al proporcionar una interfaz unificada para una multitud de tareas de visión. El artículo “InstructDiffusion: una interfaz de modelado generalista para tareas de visión” presenta un modelo capaz de manejar sin problemas varias aplicaciones de visión simultáneamente.

En el corazón de InstructDiffusion se encuentra un enfoque novedoso: formular las tareas de visión como procesos de manipulación de imágenes intuitivos para los humanos. A diferencia de los métodos convencionales que dependen de espacios de salida predefinidos, como categorías o coordenadas, InstructDiffusion opera en un espacio de píxeles flexible, alineándose más estrechamente con la percepción humana.

El modelo está diseñado para alterar imágenes de entrada en función de las instrucciones textuales proporcionadas por el usuario. Por ejemplo, una directiva como “encerrar el ojo derecho del hombre en rojo” potencia el modelo para tareas como la detección de puntos clave. Al mismo tiempo, instrucciones como “aplicar una máscara azul al perro más a la derecha” sirven para fines de segmentación.

La base de este marco son los modelos probabilísticos de difusión de eliminación de ruido (DDPM), que generan salidas de píxeles. Los datos de entrenamiento comprenden tripletes, cada uno compuesto por una instrucción, una imagen de origen y una imagen de salida objetivo. El modelo está preparado para abordar tres tipos principales de salidas: imágenes RGB, máscaras binarias y puntos clave. Esto cubre una amplia gama de tareas de visión, incluyendo segmentación, detección de puntos clave, edición y mejora de imágenes.

Detección de puntos clave

a) Crea un círculo amarillo alrededor del ojo derecho de la ballena. (b) Marca el logotipo del coche con un círculo azul.

Segmentación

a) Marca los píxeles del gato en el espejo de azul y deja el resto sin cambios. (b) Pinta de azul los píxeles de la sombra y mantén la apariencia actual de los demás píxeles.

Edición de imágenes

Resultados de imágenes generados por el modelo

Tareas de bajo nivel

InstructDiffusion también se aplica a tareas de visión de bajo nivel, como desenfoque de imágenes, eliminación de ruido y eliminación de marcas de agua.

Los experimentos demuestran la destreza de InstructDiffusion, superando a modelos especializados en tareas individuales. Sin embargo, la verdadera maravilla radica en su capacidad de generalización. Exhibe la característica distintiva a menudo asociada con la Inteligencia Artificial General (AGI), adaptándose hábilmente a tareas no encontradas durante el entrenamiento. Esto marca un gran avance hacia un marco unificado y flexible para la visión por computadora, listo para avanzar en todo el campo.

Una revelación clave fue que el entrenamiento simultáneo del modelo en tareas diversas notablemente amplificó su capacidad para generalizar a escenarios nuevos. InstructDiffusion mostró una notable eficacia en los conjuntos de datos de HumanArt y AP-10K para la detección de puntos clave, a pesar de las diferentes distribuciones de datos en comparación con los datos de entrenamiento.

El equipo de investigación subrayó la importancia crítica de instrucciones altamente detalladas para mejorar las capacidades de generalización del modelo. Simples nombres de tarea como “segmentación semántica” resultaron insuficientes, dando como resultado un rendimiento deficiente, especialmente en tipos de datos novedosos. Esto destaca la capacidad de InstructDiffusion para comprender significados e intenciones específicas detrás de instrucciones detalladas en lugar de depender de la memorización.

Al enfatizar la comprensión en lugar de la memorización, InstructDiffusion aprende conceptos visuales sólidos y significados semánticos. Esta distinción es fundamental para comprender sus notables capacidades de generalización. Por ejemplo, una instrucción como “encerar la oreja izquierda del gato en rojo” permite que el modelo distinga elementos específicos, como “gato”, “oreja izquierda” y “círculo rojo”, mostrando su comprensión detallada.

Este desarrollo innovador impulsa a los modelos de visión por computadora hacia convertirse en generalistas versátiles, reflejando la percepción humana. La interfaz de InstructDiffusion introduce flexibilidad e interactividad ausentes en la mayoría de los sistemas de visión actuales, reduciendo la brecha entre la comprensión humana y la máquina en la visión por computadora. Las implicaciones de esta investigación son profundas, ya que allana el camino para el desarrollo de agentes de visión multipropósito capaces, demostrando su potencial para elevar la inteligencia visual general a nuevos niveles.