Investigadores del Instituto Allen de IA presentan VISPROG Un enfoque neuro-simbólico para resolver tareas visuales complejas y composicionales dadas instrucciones en lenguaje natural.

The Allen Institute for AI researchers present VISPROG, a neuro-symbolic approach to solving complex and compositional visual tasks using natural language instructions.

La búsqueda de sistemas de inteligencia artificial de propósito general ha facilitado el desarrollo de modelos capaces de ser entrenados de extremo a extremo, muchos de los cuales buscan proporcionar una interfaz de lenguaje natural simple para que el usuario interactúe con el modelo. La preformación no supervisada a gran escala seguida del entrenamiento multitarea supervisado ha sido el método más común para desarrollar estos sistemas. Eventualmente, quieren que estos sistemas se ejecuten a escala para el largo plazo de trabajos difíciles. Sin embargo, esta estrategia necesita un conjunto de datos cuidadosamente seleccionado para cada tarea. En este trabajo, se estudia el uso de modelos de lenguaje grandes para manejar el largo plazo de tareas complejas al descomponer las actividades difíciles en lenguaje natural en fases más simples que pueden ser manejadas por modelos especializados entrenados de extremo a extremo u otros programas.

Dígale a un programa de visión por computadora que “Etiquete a los siete personajes principales del programa de televisión The Big Bang Theory en esta imagen”. El sistema debe comprender primero el propósito de la instrucción antes de llevar a cabo los siguientes pasos: detectar caras, recuperar la lista de personajes principales de The Big Bang Theory de una base de conocimientos, clasificar las caras utilizando la lista de personajes y etiquetar la imagen con los nombres y rostros de los personajes que fueron reconocidos. Si bien varios sistemas de visión y lenguaje pueden llevar a cabo cada tarea, la ejecución de tareas de lenguaje natural está fuera del alcance de los sistemas entrenados de extremo a extremo.

Figura 1: Un sistema neuro-simbólico modular e interpretable para el razonamiento visual compositivo – VISPROG. VISPROG desarrolla un programa para cada nueva instrucción utilizando el aprendizaje en contexto en GPT-3, dados algunos ejemplos de instrucciones en lenguaje natural y los programas de alto nivel necesarios, y luego ejecuta el programa en la(s) imagen(es) de entrada para obtener la predicción. Además, VISPROG condensa las salidas intermedias en una justificación visual comprensible. Utilizamos VISPROG para trabajos que requieren el ensamblaje de una variedad de módulos para la recuperación de conocimientos, operaciones aritméticas y lógicas, así como para el análisis y la manipulación de imágenes.

Investigadores del Instituto Allen de IA proponen VISPROG, un programa que toma como entrada información visual (una sola imagen o una colección de imágenes) y un comando de lenguaje natural, crea una serie de instrucciones o programa visual, como se les puede llamar, y luego ejecuta estas instrucciones para producir el resultado requerido. Cada línea de un programa visual llama a uno de los muchos módulos que el sistema soporta actualmente. Los módulos pueden ser modelos de lenguaje preconstruidos, subrutinas de procesamiento de imágenes OpenCV o operadores aritméticos y lógicos. También pueden ser modelos preconstruidos de visión por computadora. Las entradas creadas ejecutando líneas anteriores de código son consumidas por los módulos, produciendo salidas intermedias que pueden ser utilizadas más tarde.

En el ejemplo mencionado anteriormente, se utilizan un detector de caras, GPT-3 como sistema de recuperación de conocimientos y CLIP como clasificador de imágenes de vocabulario abierto en el programa visual creado por VISPROG para proporcionar la salida necesaria (ver Fig. 1). La generación y ejecución de programas para aplicaciones de visión son mejoradas por VISPROG. Las Redes de Módulos Neuronales (NMN) combinan módulos neuronales especializados y diferenciables para crear una red entrenable de extremo a extremo específica para preguntas para el problema de respuesta a preguntas visuales (VQA). Estos métodos entrenan un generador de diseño utilizando la supervisión de respuestas débiles de REINFORCE o analizadores semánticos preconstruidos y frágiles para generar el diseño de módulos de manera determinista.

En contraste, VISPROG permite a los usuarios construir programas complicados sin entrenamiento previo utilizando un modelo de lenguaje potente (GPT-3) y ejemplos limitados en contexto. Invocando modelos avanzados de última generación, subrutinas Python no neuronales y niveles de abstracción mayores que los NMN, los programas VISPROG también son más abstractos que los NMN. Debido a estas ventajas, VISPROG es un sistema neuro-simbólico rápido, efectivo y versátil. Además, VISPROG es muy interpretativo. En primer lugar, VISPROG crea programas fáciles de entender cuya precisión lógica puede ser verificada por el usuario. En segundo lugar, al descomponer la predicción en partes manejables, VISPROG permite al usuario examinar los resultados de las fases intermedias para detectar fallas y, si es necesario, realizar correcciones en la lógica.

Un programa completo con salidas intermedias (como texto, cuadros delimitadores, máscaras de segmentación, imágenes producidas, etc.) conectadas para mostrar el flujo de información sirve como una justificación visual para la predicción. Emplean VISPROG para cuatro actividades distintas para mostrar su versatilidad. Estas tareas involucran habilidades comunes (como el análisis de imágenes) pero también requieren habilidades de pensamiento especializado y manipulación visual. Estas tareas incluyen:

  1. Responder preguntas visuales de composición.
  2. NLVR de cero disparos en parejas de imágenes.
  3. Etiquetado de objetos de conocimiento factual a partir de instrucciones NL.
  4. Manipulación de imágenes guiada por el lenguaje.

Destacan que ninguno de los módulos ni el modelo de lenguaje ha sido alterado de ninguna manera. Solo se necesitan algunos ejemplos en contexto con comandos de lenguaje natural y los programas apropiados para adaptar VISPROG a cualquier tarea. VISPROG es fácil de usar y tiene ganancias sustanciales sobre un modelo de VQA base en la prueba VQA de composición de 2,7 puntos, una buena precisión de cero disparos en NLVR del 62,4% y resultados cualitativos y cuantitativos satisfactorios en tareas de etiquetado de conocimiento y edición de imágenes.