Investigadores de UCLA y Google proponen AVIS un revolucionario marco de IA para la búsqueda autónoma de información en la respuesta visual de preguntas

UCLA and Google researchers propose AVIS, a revolutionary AI framework for autonomous information retrieval in visual question answering

GPT3, LaMDA, PALM, BLOOM y LLaMA son solo algunos ejemplos de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) que han demostrado su capacidad para almacenar y aplicar vastas cantidades de información. Se muestran nuevas habilidades como el aprendizaje en contexto, la creación de código y el razonamiento de sentido común. Un esfuerzo reciente ha sido entrenar a los LLMs para procesar simultáneamente datos visuales y lingüísticos. GPT4, Flamingo y PALI son tres ejemplos ilustres de modelos visuales de lenguaje (VLMs, por sus siglas en inglés). Establecieron nuevos puntos de referencia para numerosas tareas, incluyendo la descripción de imágenes, la respuesta a preguntas visuales y el reconocimiento de vocabulario abierto. Si bien los LLMs de última generación superan con creces las capacidades humanas en tareas que implican la recuperación de información textual, los VLMs de última generación tienen dificultades con conjuntos de datos que buscan información visual como Infoseek, Oven y OK-VQA.

Por muchas razones, es difícil para los modelos de visión y lenguaje (VLMs) más avanzados de hoy en día responder satisfactoriamente a estas consultas. Los jóvenes necesitan aprender a reconocer categorías y detalles finos en las imágenes. En segundo lugar, su razonamiento debe ser más sólido porque utilizan un modelo de lenguaje más pequeño que los modelos de lenguaje grandes de última generación (LLMs). Por último, a diferencia de los motores de búsqueda de imágenes, no examinan la imagen de consulta frente a un gran corpus de imágenes etiquetadas con metadatos diferentes. En este estudio, investigadores de la Universidad de California, Los Ángeles (UCLA) y Google presentan un enfoque novedoso para superar estos obstáculos mediante la combinación de LLMs con tres tipos diferentes de herramientas, lo que resulta en un rendimiento de última generación en tareas de búsqueda de información visual.

  • Los programas informáticos que ayudan con la extracción de información visual incluyen detectores de objetos, software de reconocimiento óptico de caracteres, modelos de descripción de imágenes y software de evaluación de calidad visual.
  • Un recurso en línea para descubrir datos e información sobre el mundo exterior.
  • Un método para encontrar resultados relevantes en una búsqueda de imágenes mediante la explotación de los metadatos de imágenes visualmente relacionadas.

El método utiliza un planificador impulsado por un LLM para decidir qué herramienta utilizar y qué consulta enviar en el momento. Además, los investigadores utilizan un razonador alimentado por LLM para examinar los resultados de las herramientas y extraer los datos relevantes.

Para empezar, el LLM simplifica una consulta en una estrategia, un programa o un conjunto de instrucciones. Después de esto, se activan las API adecuadas para recopilar datos. Si bien esta aproximación promete en desafíos visuales y de lenguaje simples, a menudo necesita ser revisada en escenarios del mundo real más complejos. No se puede determinar una estrategia completa a partir de una consulta inicial de este tipo. En su lugar, requiere una iteración continua en respuesta a los datos en curso. La capacidad de tomar decisiones sobre la marcha es la innovación clave de la estrategia propuesta. La planificación para preguntas que requieren información visual es un proceso de múltiples pasos debido a la complejidad de la tarea. El planificador debe decidir qué API utilizar y qué consulta presentar en cada etapa. Solo puede anticipar la utilidad de las respuestas de API sofisticadas como la búsqueda de imágenes o predecir su salida después de llamarlas. Por lo tanto, los investigadores eligen una estrategia dinámica en lugar de los métodos tradicionales, que incluyen una planificación previa de las etapas del proceso y las llamadas a API.

Los investigadores realizan un estudio de usuarios para comprender mejor cómo las personas toman decisiones al interactuar con las API para encontrar información visual. Para que el modelo de lenguaje grande (LLM) tome decisiones informadas sobre la selección de API y la formulación de consultas, recopilan esta información en un marco sistemático. Hay dos formas principales en las que el sistema se beneficia de los datos de usuario recopilados. Comienzan construyendo un grafo de transición deduciendo el orden de las acciones del usuario. Este grafo define los límites entre los estados y los pasos que se pueden tomar en cada uno. En segundo lugar, proporcionan ejemplos útiles de toma de decisiones de los usuarios al planificador y al razonador.

Contribuciones clave

  • El equipo propone un innovador marco de respuesta a preguntas visuales que utiliza un modelo de lenguaje grande (LLM) para planificar dinámicamente el uso de herramientas externas y la investigación de sus resultados, aprendiendo así el conocimiento necesario para proporcionar respuestas a las preguntas planteadas.
  • El equipo utiliza los hallazgos del estudio de usuarios sobre cómo las personas toman decisiones para crear un plan sistemático. Este marco instruye al modelo de lenguaje grande (LLM) para imitar la toma de decisiones humana al seleccionar API y construir consultas.
  • La estrategia supera a las soluciones de última generación en Infoseek y OK-VQA, dos puntos de referencia para la respuesta a preguntas visuales basadas en el conocimiento. En particular, en comparación con la precisión del 16.0% de PALI en el conjunto de datos de Infoseek (división de entidades no vistas), nuestros resultados son sustancialmente más altos, alcanzando el 50.7%.

APIs y otras herramientas

AVIS (Búsqueda Autónoma de Información Visual con Modelos de Lenguaje Amplio) necesita un conjunto sólido de recursos para responder a consultas visuales que requieren una recuperación adecuada de información en profundidad.

  • Modelo de subtitulado de imágenes
  • Modelo de preguntas y respuestas visuales
  • Detección de objetos
  • Búsqueda de imágenes
  • OCR
  • Búsqueda en la web
  • LLM Preguntas y respuestas breves

Limitaciones

Actualmente, la función principal de AVIS es proporcionar respuestas visuales a preguntas. Los investigadores planean ampliar el alcance del sistema de toma de decisiones dinámicas impulsado por LLM para incorporar aplicaciones adicionales de razonamiento. El marco actual también requiere el modelo PALM, un LLM computacionalmente complejo. Quieren determinar si modelos de lenguaje más pequeños y menos intensivos computacionalmente pueden tomar las mismas decisiones.

En resumen, los investigadores de UCLA y Google han propuesto un nuevo método que brinda a los Modelos de Lenguaje Amplio (LLM) acceso a una amplia gama de recursos para procesar consultas de conocimiento orientadas visualmente. La metodología se basa en datos de estudios de usuarios sobre la toma de decisiones humanas. Utiliza un marco estructurado en el que un planificador impulsado por LLM elige qué herramientas utilizar y cómo construir consultas sobre la marcha. La salida de la herramienta seleccionada se procesará y un razonador impulsado por 9 LLM extraerá información clave. Una pregunta visual se descompone en piezas más pequeñas, y el planificador y el razonador trabajan juntos para resolver cada una utilizando una variedad de herramientas hasta que hayan acumulado suficientes datos para responder el problema.