Abordando múltiples tareas con un único modelo de lenguaje visual

'Abordando varias tareas con un solo modelo de lenguaje visual'

Un aspecto clave de la inteligencia es la capacidad de aprender rápidamente cómo realizar una nueva tarea cuando se le da una breve instrucción. Por ejemplo, un niño puede reconocer animales reales en el zoológico después de ver algunas imágenes de los animales en un libro, a pesar de las diferencias entre los dos. Pero para que un modelo visual típico aprenda una nueva tarea, debe ser entrenado con decenas de miles de ejemplos específicamente etiquetados para esa tarea. Si el objetivo es contar e identificar animales en una imagen, como en “tres cebras”, se tendrían que recopilar miles de imágenes y anotar cada imagen con su cantidad y especie. Este proceso es ineficiente, costoso y requiere muchos recursos, ya que se necesita una gran cantidad de datos anotados y la necesidad de entrenar un nuevo modelo cada vez que se enfrenta a una nueva tarea. Como parte de la misión de DeepMind de resolver la inteligencia, hemos explorado si un modelo alternativo podría facilitar y hacer más eficiente este proceso, dado solo información limitada específica de la tarea.

Hoy, en la preimpresión de nuestro artículo, presentamos Flamingo, un modelo de lenguaje visual único (VLM) que establece un nuevo estado del arte en el aprendizaje de pocas muestras en una amplia gama de tareas multimodales de final abierto. Esto significa que Flamingo puede abordar una serie de problemas difíciles con solo unos pocos ejemplos específicos de la tarea (en “pocas muestras”), sin necesidad de entrenamiento adicional. La interfaz simple de Flamingo hace esto posible, tomando como entrada una indicación compuesta por imágenes, videos y texto entrelazados y luego generando un lenguaje asociado.

Similar al comportamiento de los grandes modelos de lenguaje (LLM), que pueden abordar una tarea de lenguaje procesando ejemplos de la tarea en su indicación de texto, la interfaz visual y de texto de Flamingo puede dirigir el modelo hacia la resolución de una tarea multimodal. Dados unos pocos pares de ejemplos de entradas visuales y respuestas de texto esperadas compuestas en la indicación de Flamingo, se le puede hacer una pregunta al modelo con una nueva imagen o video, y luego generar una respuesta.

Figura 1. Dados los dos ejemplos de imágenes de animales y un texto que identifica su nombre y un comentario sobre dónde se pueden encontrar, Flamingo puede imitar este estilo al recibir una nueva imagen para generar una descripción relevante: “Esto es un flamenco. Se encuentran en el Caribe”.

En las 16 tareas que estudiamos, Flamingo supera a todos los enfoques anteriores de aprendizaje de pocas muestras cuando se le dan tan solo cuatro ejemplos por tarea. En varios casos, el mismo modelo de Flamingo supera a los métodos que se ajustan y optimizan para cada tarea de forma independiente y utilizan múltiples órdenes de magnitud más datos específicos de la tarea. Esto debería permitir que personas no expertas utilicen de manera rápida y sencilla modelos precisos de lenguaje visual en nuevas tareas que tengan entre manos.

Figura 2. Izquierda: Rendimiento de pocas muestras de Flamingo en 16 tareas multimodales diferentes frente al rendimiento específico de última generación de cada tarea. Derecha: Ejemplos de entradas y salidas esperadas para tres de nuestras 16 pruebas.

En la práctica, Flamingo fusiona modelos de lenguaje grandes con representaciones visuales potentes, cada uno entrenado por separado y congelado, al agregar componentes arquitectónicos novedosos en el medio. Luego se entrena con una mezcla de datos multimodales a gran escala complementarios provenientes únicamente de la web, sin utilizar ningún dato anotado con fines de aprendizaje automático. Siguiendo este método, partimos de Chinchilla, nuestro modelo de lenguaje con 70B de parámetros y cálculo óptimo, para entrenar nuestro modelo final de Flamingo, un VLM con 80B de parámetros. Una vez que se completa este entrenamiento, Flamingo se puede adaptar directamente a tareas de visión mediante un aprendizaje de pocas muestras simple sin necesidad de afinación adicional específica de la tarea.

También probamos las capacidades cualitativas del modelo más allá de nuestras pruebas actuales. Como parte de este proceso, comparamos el rendimiento de nuestro modelo al describir imágenes relacionadas con el género y el color de piel, y pasamos las descripciones generadas por nuestro modelo a través de la API de Perspectiva de Google, que evalúa la toxicidad del texto. Si bien los resultados iniciales son positivos, se requiere más investigación para evaluar los riesgos éticos en los sistemas multimodales, y instamos a las personas a evaluar y considerar cuidadosamente estos problemas antes de pensar en implementar dichos sistemas en el mundo real.

Las capacidades multimodales son esenciales para aplicaciones de IA importantes, como ayudar a las personas con discapacidad visual con desafíos visuales cotidianos o mejorar la identificación de contenido odioso en la web. Flamingo hace posible adaptarse de manera eficiente a estos ejemplos y otras tareas sobre la marcha sin modificar el modelo. Curiosamente, el modelo demuestra capacidades de diálogo multimodal listas para usar, como se puede ver aquí.

Figura 3 – Flamingo puede participar en diálogos multimodales de manera instantánea, como se muestra aquí discutiendo una improbable imagen de “monstruo de sopa” generada por DALL·E 2 de OpenAI (izquierda), y pasando e identificando la famosa prueba de Stroop (derecha). #https://openai.com/dall-e-2/

Flamingo es una familia efectiva y eficiente de modelos de propósito general que se pueden aplicar a tareas de comprensión de imágenes y videos con ejemplos mínimos específicos de la tarea. Modelos como Flamingo tienen un gran potencial para beneficiar a la sociedad de manera práctica y continuamos mejorando su flexibilidad y capacidades para que puedan ser implementados de manera segura en beneficio de todos. Las habilidades de Flamingo abren el camino hacia interacciones enriquecedoras con modelos de lenguaje visual aprendidos que pueden permitir una mejor interpretación y emocionantes aplicaciones nuevas, como un asistente visual que ayuda a las personas en la vida cotidiana, y estamos encantados con los resultados hasta ahora.