Hacer que ChatGPT vuelva a ver Este enfoque de IA explora el aprendizaje de contexto de enlaces para habilitar el aprendizaje multimodal

Revive el enfoque de aprendizaje multimodal de ChatGPT mediante el aprendizaje de contexto de enlaces

Los modelos de lenguaje han revolucionado la forma en que nos comunicamos con las computadoras gracias a su capacidad para generar texto coherente y relevante en contexto. Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han estado a la vanguardia de este progreso, entrenados con cantidades masivas de datos de texto para aprender los patrones y matices del lenguaje humano. ChatGPT, el pionero de la revolución LLM, es extremadamente popular entre personas de diferentes disciplinas.

Los LLMs han facilitado diversas tareas gracias a su gran capacidad. Los utilizamos para resumir textos, ayudarnos a escribir correos electrónicos, automatizar tareas de programación, explicar documentos, etc. Todas estas tareas llevaban mucho tiempo hace apenas un año, pero actualmente se completan en solo un par de minutos.

Sin embargo, con la creciente demanda de comprensión multimodal, donde los modelos necesitan procesar y generar contenido en diferentes modalidades como texto, imágenes e incluso videos, ha surgido la necesidad de Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés). Los MLLMs combinan el poder de los modelos de lenguaje con la comprensión visual, permitiendo que las máquinas comprendan y generen contenido de manera más completa y contextualmente consciente.

Una vez que la locura de ChatGPT se calmó un poco, los MLLMs tomaron al mundo de la IA por asalto, permitiendo que las máquinas comprendan y generen contenido en diferentes modalidades como texto e imágenes. Estos modelos han mostrado un rendimiento notable en tareas como reconocimiento de imágenes, fundamentación visual y comprensión de instrucciones. Sin embargo, entrenar estos modelos de manera efectiva sigue siendo un desafío. El desafío más grande se presenta cuando un MLLM se encuentra con escenarios completamente nuevos donde tanto la imagen como la etiqueta son desconocidas.

Además, los MLLMs tienden a “perderse en el medio” al procesar contextos más largos. Estos modelos dependen en gran medida de las posiciones iniciales y medias, lo que explica el estancamiento en la precisión a medida que aumenta el número de tomas. Por lo tanto, los MLLMs tienen dificultades con entradas más largas.

Es hora de conocer Link-context-learning (LCL) que aborda varios desafíos en MLLM.

Diálogo de demostración del aprendizaje de contexto de enlace propuesto. Fuente: https://arxiv.org/abs/2308.07891

En MLLM, hay dos estrategias clave de entrenamiento. Ajuste de Instrucción Multimodal (M-PT, por sus siglas en inglés) y Ajuste de Instrucción Multimodal (M-IT, por sus siglas en inglés). M-PT implica ajustar finamente solo una pequeña parte de los parámetros del modelo mientras se mantienen el resto congelados. Este enfoque ayuda a lograr resultados similares a la afinación completa mientras se minimizan los recursos computacionales. Por otro lado, M-IT mejora la capacidad de cero disparos de los MLLMs al ajustarlos finamente en conjuntos de datos que incluyen descripciones de instrucciones. Esta estrategia mejora la capacidad del modelo para comprender y responder a nuevas tareas sin entrenamiento previo. Ambas funcionan bien, pero ambas sacrifican ciertos aspectos.

Diferencia entre aprendizaje en contexto y aprendizaje de contexto de enlace. Fuente: https://arxiv.org/abs/2308.07891

En cambio, LCL explora diferentes estrategias de entrenamiento: estrategia mixta, estrategia de 2 vías, aleatoria de 2 vías y ponderada de 2 vías. La estrategia mixta destaca al aumentar significativamente la precisión de cero disparos y lograr resultados impresionantes en 6 disparos. Sin embargo, su rendimiento disminuye ligeramente en 16 disparos. Por el contrario, la estrategia de 2 vías muestra un aumento gradual en la precisión desde 2 hasta 16 disparos, lo que indica una alineación más cercana con el patrón entrenado.

A diferencia del aprendizaje en contexto tradicional, LCL va un paso más allá al capacitar al modelo para establecer una relación entre la fuente y el objetivo, mejorando su rendimiento general. Al proporcionar demostraciones con vínculos causales, LCL permite a los MLLMs discernir no solo analogías, sino también las asociaciones causales subyacentes entre los puntos de datos, lo que les permite reconocer imágenes no vistas y comprender conceptos novedosos de manera más efectiva. El conjunto de datos ISEKAI sirve como un recurso crucial para evaluar y mejorar las capacidades de los MLLMs en el contexto del aprendizaje de contexto de enlaces.

Además, LCL introduce el conjunto de datos ISEKAI, un conjunto de datos novedoso y completo diseñado específicamente para evaluar las capacidades de los MLLMs. El conjunto de datos ISEKAI comprende imágenes generadas completamente y conceptos fabricados. Desafía a los MLLMs a asimilar nuevos conceptos de conversaciones en curso y retener este conocimiento para una respuesta precisa a preguntas.

En conclusión, LCL proporciona ideas valiosas sobre las estrategias de entrenamiento empleadas para los modelos de lenguaje multimodales. La estrategia mixta y la estrategia de 2 vías ofrecen enfoques diferentes para mejorar el rendimiento de los MLLMs, cada uno con sus propias fortalezas y limitaciones. El análisis contextual arroja luz sobre los desafíos que enfrentan los MLLMs al procesar entradas más largas, enfatizando la importancia de una investigación adicional en esta área.