Conoce a NExT-GPT Modelos de Lenguaje Grandes Multimodales de Cualquier a Cualquier de Propósito General de Extremo a Extremo (MM-LLMs)

Conoce a NExT-GPT, un modelo de lenguaje grande multimodal de propósito general, de extremo a extremo (MM-LLMs).

Los LLM multimodales pueden mejorar la interacción humano-computadora al permitir una comunicación más natural e intuitiva entre los usuarios y los sistemas de IA a través de entradas de voz, texto e imagen. Esto puede llevar a respuestas más contextualmente relevantes y completas en aplicaciones como chatbots, asistentes virtuales y sistemas de recomendación de contenido. Se basan en los fundamentos de los modelos de lenguaje unimodales tradicionales, como GPT-3, al tiempo que incorporan capacidades adicionales para manejar diferentes tipos de datos.

Sin embargo, los LLM multimodales pueden requerir una gran cantidad de datos para funcionar bien, lo que los hace menos eficientes en la muestra que otros modelos de IA. La alineación de datos de diferentes modalidades durante el entrenamiento puede ser un desafío. Debido a la falta de entrenamiento general de extremo a extremo en la propagación de errores, la comprensión del contenido y las capacidades de generación multimodal pueden ser muy limitadas. Como la transferencia de información entre diferentes módulos se basa enteramente en textos discretos producidos por el LLM, el ruido y los errores son inevitables. Asegurar que la información de cada modalidad esté adecuadamente sincronizada es esencial para el entrenamiento práctico.

Para abordar estos problemas, los investigadores de NeXT++, la Escuela de Computación (NUS), crearon NexT-GPT. Es un LLM multimodal de cualquier a cualquier diseñado para manejar la entrada y salida en cualquier combinación de modalidades de texto, imagen, video y audio. Permite a los codificadores codificar las entradas en varias modalidades, que se proyectan en las representaciones del LLM.

Su método implica modificar el LLM de código abierto existente como el núcleo para procesar la información de entrada. Después de la proyección, las señales multimodales producidas con instrucciones específicas se dirigen a diferentes codificadores y, finalmente, se genera contenido en modalidades correspondientes. Capacitar su modelo desde cero es rentable, por lo que utilizan los codificadores y decodificadores de alto rendimiento preentrenados existentes, como Q-Former, ImageBind y los modelos de difusión latente de última generación.

Introdujeron una técnica de aprendizaje de alineación ligera mediante la cual la alineación centrada en el LLM en el lado de la codificación y la alineación de seguimiento de instrucciones en el lado de la decodificación requieren ajustes mínimos de parámetros para una alineación semántica efectiva. Incluso introducen una sintonización de instrucciones de cambio de modalidad para potenciar su MM-LLM de cualquier a cualquier con capacidades a nivel humano. Esto cerrará la brecha entre el espacio de características de diferentes modalidades y garantizará una comprensión fluida de la semántica de otras entradas para realizar el aprendizaje de alineación para NExT-GPT.

La sintonización de instrucciones de cambio de modalidad (MosIT) admite una comprensión y razonamiento cruzado complejos entre modalidades y permite la generación de contenido multimodal sofisticado. Incluso construyeron un conjunto de datos de alta calidad que comprende una amplia gama de entradas y salidas multimodales, ofreciendo la complejidad y variabilidad necesarias para facilitar el entrenamiento de MM-LLMs para manejar diversas interacciones de usuario y entregar respuestas deseadas de manera precisa.

Por último, su investigación muestra el potencial de los MMLLMs de cualquier a cualquier para cerrar la brecha entre diversas modalidades y allanar el camino hacia sistemas de IA más parecidos a los humanos en el futuro.