Investigadores de UC Berkeley y Google presentan un marco de inteligencia artificial que formula la respuesta a preguntas visuales como una generación de código modular.
UC Berkeley and Google researchers present an AI framework that formulates the answer to visual questions as modular code generation.
El dominio de la Inteligencia Artificial (IA) está evolucionando y avanzando con el lanzamiento de cada nuevo modelo y solución. Los Modelos de Lenguaje Grande (LLMs), que se han vuelto muy populares recientemente debido a sus habilidades increíbles, son la principal razón del aumento en la IA. Los subdominios de la IA, ya sea Procesamiento de Lenguaje Natural, Comprensión del Lenguaje Natural o Visión por Computadora, todos ellos están progresando, y por todas las buenas razones. Una área de investigación que ha despertado recientemente mucho interés de las comunidades de aprendizaje profundo y de IA es la Respuesta a Preguntas Visuales (VQA). VQA es la tarea de responder preguntas abiertas basadas en texto sobre una imagen.
Los sistemas que adoptan la Respuesta a Preguntas Visuales intentan responder adecuadamente preguntas en lenguaje natural sobre una entrada en forma de imagen, y estos sistemas están diseñados de tal manera que comprenden el contenido de una imagen de manera similar a como lo hacen los humanos y, por lo tanto, comunican eficazmente los hallazgos. Recientemente, un equipo de investigadores de UC Berkeley y Google Research ha propuesto un enfoque llamado CodeVQA que aborda la respuesta a preguntas visuales utilizando la generación de código modular. CodeVQA formula VQA como un problema de síntesis de programas y utiliza modelos de lenguaje de escritura de código que toman preguntas como entrada y generan código como salida.
El objetivo principal de este marco es crear programas Python que puedan llamar a modelos visuales pre-entrenados y combinar sus salidas para proporcionar respuestas. Los programas producidos manipulan las salidas del modelo visual y derivan una solución usando lógica aritmética y condicional. En contraste con los enfoques anteriores, este marco utiliza modelos de lenguaje pre-entrenados, modelos visuales pre-entrenados basados en parejas de imágenes y subtítulos, un número reducido de muestras VQA y modelos visuales pre-entrenados para admitir el aprendizaje en contexto.
Para extraer información visual específica de la imagen, como subtítulos, ubicaciones de píxeles de cosas o puntajes de similitud entre texto e imagen, CodeVQA utiliza API visual primitiva envuelta en Modelos de Lenguaje Visual. El código creado coordina varias APIs para recopilar los datos necesarios, luego utiliza toda la expresividad del código Python para analizar los datos y razonar sobre ellos utilizando matemáticas, estructuras lógicas, bucles de retroalimentación y otros constructos de programación para llegar a una solución.
- Un equipo de investigación de Google, Cornell y UC Berkeley present...
- Investigadores de Harvard Introducen Intervención en Tiempo de Infe...
- Permitiendo experiencias de usuario encantadoras a través de modelo...
Para la evaluación, el equipo ha comparado el rendimiento de esta nueva técnica con una línea de base de pocos disparos que no utiliza la generación de código para evaluar su efectividad. COVR y GQA fueron los dos conjuntos de datos de referencia utilizados en la evaluación, entre los cuales el conjunto de datos GQA incluye preguntas multihop creadas a partir de grafos de escenas de fotos individuales de Visual Genome que los humanos han anotado manualmente, y el conjunto de datos COVR contiene preguntas multihop sobre conjuntos de imágenes en los conjuntos de datos Visual Genome e imSitu. Los resultados mostraron que CodeVQA funcionó mejor en ambos conjuntos de datos que la línea de base. En particular, mostró una mejora en la precisión de al menos el 3% en el conjunto de datos COVR y alrededor del 2% en el conjunto de datos GQA.
El equipo ha mencionado que CodeVQA es fácil de implementar y utilizar porque no requiere ningún entrenamiento adicional. Utiliza modelos pre-entrenados y un número limitado de muestras VQA para el aprendizaje en contexto, lo que ayuda a adaptar los programas creados a patrones específicos de preguntas y respuestas. En resumen, este marco es poderoso y aprovecha la fuerza de los LMs y modelos visuales pre-entrenados, proporcionando un enfoque modular y basado en código para VQA.