Investigadores de CMU presentan FROMAGe Un modelo de IA que inicia rápidamente modelos de lenguaje grandes (LLMs) congelados para generar texto de forma libre entrelazado con imágenes.
Researchers from CMU present FROMAGe, an AI model that quickly initiates frozen large language models (LLMs) to generate freely interwoven text with images.
Los modelos de lenguaje enormemente grandes (LLMs) pueden exhibir habilidades atractivas como producir discurso similar al humano y responder a preguntas complicadas porque han sido entrenados a gran escala en grandes corpus de texto. Si bien esto es sin duda sorprendente, la mayoría de los LLMs de vanguardia se entrenan con datos de solo texto descargados de Internet. Con frecuencia, no pueden comprender conceptos basados en el mundo real debido a que necesitan estar expuestos a pistas visuales ricas. Como resultado, la mayoría de los modelos de lenguaje que se utilizan actualmente tienen limitaciones en tareas que requieren razonamiento y fundamentos visuales, y tampoco pueden generar imágenes. En este artículo, se demuestra cómo utilizar de manera efectiva las capacidades de un LLM congelado para entrada y salida multimodal (imagen y texto).
Se entrena el modelo de lenguaje para aprender un nuevo token [RET] que representa una imagen para la recuperación imagen-texto. También se utiliza un mapeo lineal mediante aprendizaje contrastivo para que los embeddings de [RET] para una leyenda estén cerca de los embeddings visuales de su imagen asociada. Solo se actualizan los pesos de las capas lineales y el embedding del token [RET] durante el entrenamiento, dejando la mayor parte del modelo congelado. Como resultado, el enfoque propuesto es altamente eficiente en memoria y computacionalmente. Una vez entrenado, el modelo demuestra varias habilidades. Tiene nuevas habilidades de conversación y razonamiento multimodal, además de la capacidad original del LLM de solo texto para crear texto. El enfoque propuesto es independiente del modelo y se puede utilizar como base para futuras versiones de LLMs más fuertes o más grandes.
El modelo de lenguaje se entrena para aprender un nuevo token [RET] que representa una imagen, y se utiliza el aprendizaje contrastivo para conocer un mapeo lineal que hace que los embeddings de [RET] para una leyenda estén cerca de los embeddings visuales de su imagen correspondiente. Solo se actualizan los pesos de las capas lineales y el embedding del token [RET] durante el entrenamiento, dejando la mayor parte del modelo fijo. Como resultado, el enfoque propuesto es altamente eficiente en memoria y computacionalmente. Una vez enseñado, el modelo demuestra varias habilidades. Tiene nuevas habilidades de conversación y razonamiento multimodal, además de la capacidad original del LLM de solo texto para crear texto. El enfoque propuesto es independiente del modelo y se puede utilizar como base para futuras versiones de LLMs más fuertes o más grandes.
Mostrando la mayor sensibilidad del proceso de recuperación de texto a imagen realizado por LLMs autoregresivos. Una de sus principales contribuciones es el modelo FROMAGe (Frozen Retrieval Over Multimodal Data for Autoregressive Generation), entrenado de manera efectiva mediante el anclaje visual de LLMs a través de la descripción de imágenes y el aprendizaje contrastivo. Mientras que los algoritmos anteriores requieren datos de imagen-texto entrelazados a gran escala, FROMAGe desarrolla capacidades multimodales potentes con pocas instancias a partir de parejas de descripciones de imágenes. Su método es más preciso en textos largos y complicados que los modelos anteriores. Demuestra cómo las habilidades actuales de los LLMs de solo texto preentrenados, incluido el aprendizaje contextual, la sensibilidad a la entrada y la creación de conversaciones, pueden utilizarse en tareas que requieren entrada visual.
- Investigadores logran un avance en la computación cuántica con un g...
- Principales 10 influyentes en IA a seguir en 2023
- Investigadores de Microsoft presentan KOSMOS-2 un modelo de lenguaj...
Muestran: (1) recuperación de imagen contextual a partir de secuencias de imágenes y texto entrelazados; (2) buen rendimiento sin entrenamiento en conversaciones visuales; y (3) mayor sensibilidad al contexto del discurso para la recuperación de imágenes. Sus resultados abren la puerta a modelos que pueden aprender y producir secuencias multimodales largas y coherentes. También destacan las capacidades de los LLMs de solo texto preentrenados en tareas basadas en imágenes. Para fomentar más investigación y desarrollo, su código y modelos preentrenados estarán disponibles para el público en general pronto.