Presentando MPT-7B Un nuevo LLM de código abierto.
Introducing MPT-7B, a new open-source LLM.
Un LLM entrenado en 1T tokens de texto y código por la serie de la Fundación MosaicML.
Los modelos de lenguaje grandes (LLM) se están volviendo locos en este momento. Sin embargo, como organización, si no tiene los recursos adecuados, puede ser difícil subirse a la ola de los modelos de lenguaje grandes. Entrenar e implementar modelos de lenguaje grandes puede ser difícil, y de repente te sientes excluido. Los LLM de código abierto, como la serie LLaMA de Meta, han permitido que los recursos de LLM estén disponibles.
Y para agregar a la colección de código abierto está la última adición de MosaicML Foundations a su serie: MPT-7B.
¿Qué es MPT-7B?
MPT significa MosaicML Pretrained Transformer. Los modelos MPT son transformadores solo decodificadores estilo GPT que vienen con muchas mejoras:
- Los mejores marcos de AutoML que deberías considerar en 2023
- Falcon LLM El Nuevo Rey de los LLM de Código Abierto
- Cómo llevar a cabo MLOps como un jefe Una guía para el aprendizaje ...
- Implementaciones de capa optimizadas para el rendimiento
- Mayor estabilidad de entrenamiento debido a cambios en la arquitectura
- Sin limitaciones de longitud de contexto
MPT-7B es un modelo transformador que ha sido entrenado desde cero utilizando 1T tokens de texto y código. ¡Sí, 1 BILLÓN! Fue entrenado en la plataforma MosaicML, con un marco de tiempo de 9.5 días sin intervención humana. Costando a MosaicML ~$200k.
Es de código abierto, lo que lo hace disponible para uso comercial y la herramienta será un cambio de juego en cómo las empresas y organizaciones trabajan con su análisis predictivo y proceso de toma de decisiones.
Las principales características de MPT-7B son:
- Licenciado para uso comercial
- Entrenado en una gran cantidad de datos (1T tokens)
- Puede manejar entradas extremadamente largas
- Optimizado para entrenamiento e inferencia rápidos
- Código de entrenamiento de código abierto altamente eficiente.
MPT-7B es el modelo base y se ha demostrado que supera a otros modelos de 7B-20B de código abierto. La calidad de MPT-7B coincide con LLaMA-7B. Para evaluar la calidad de MPT-7B, la Fundación MosaicML ha creado 11 puntos de referencia de código abierto y los ha evaluado utilizando el método estándar de la industria.
Las fundaciones MosaicML también están lanzando tres modelos adicionales:
- MPT-7B-Instruct
- MPT-7B-Chat
- MPT-7B-StoryWriter-65k+
MPT-7B-Instruct
El modelo MPT-7B-Instruct es para instrucciones de formato corto. Con 26.834 datados del 14 de mayo, MPT-7B-Instruct le permite hacer preguntas rápidas y cortas y le proporciona una respuesta instantánea. ¿Tiene una pregunta y solo quiere una respuesta simple? Use MPT-7B-Instruct.
¿Por qué es esto tan genial? Por lo general, los LLM se enseñan para seguir generando texto en función de la entrada que se proporcionó. Sin embargo, algunos buscan LLM que traten su entrada como una instrucción. El ajuste de instrucciones permite que los LLM realicen salidas de seguimiento de instrucciones.
MPT-7B-Chat
Sí, tenemos otro chatbot. MPT-7B-Chat genera diálogo. Por ejemplo, si desea que el chatbot genere un discurso, dándole contexto, generará un texto de manera conversacional. ¿O tal vez desea escribir un tweet que parafrasee un párrafo de un artículo? ¡Puede generar el diálogo por usted!
¿Por qué es esto tan genial? MPT-7B Chat está listo y bien equipado para una variedad de tareas conversacionales, brindando interacciones multipaso más fluidas y atractivas para los usuarios.
MPT-7B-StoryWriter-65k+
¡Esto es para los escritores de historias! Para aquellos que quieren escribir historias con un contexto largo, MPT-7B-StoryWriter-65k+ es un modelo diseñado exactamente para eso. El modelo se construyó mediante afinación fina de MPT-7B con una longitud de contexto de 65k tokens, y puede extrapolar más allá de 65k tokens. La Fundación MosaicML ha podido generar 84k tokens en un solo nodo de GPU A100-80GB.
¿Por qué es tan genial esto? Esto se debe a que la mayoría de los LLM de código abierto solo pueden manejar secuencias con hasta unos pocos miles de tokens. ¡Pero solo usando un solo nodo de 8xA100-80GB en la plataforma MosaicML, puede ajustar finamente MPT-7B para manejar longitudes de contexto de hasta 65k!
Más sobre cómo se construyó MPT-7B
El equipo de MosaicML construyó estos modelos en solo unas pocas semanas. En solo unas pocas semanas, se encargaron de la preparación de datos, el entrenamiento, el ajuste fino y la implementación.
Los datos se obtuvieron de una variedad de fuentes, todas las cuales tenían mil millones de tokens disponibles en cada fuente. ¡El número de tokens efectivos todavía era de mil millones en cada fuente! El equipo usó el tokenizador GPT-NeoX de EleutherAI y 20B, lo que les permitió entrenar con una mezcla diversa de datos, aplicar una delimitación de espacio constante y más.
Todos los modelos MPT-7B fueron entrenados en la plataforma MosaicML, utilizando GPU A100-40GB y A100-80GB de Oracle Cloud.
Si desea obtener más información sobre las herramientas y los costos de MPT-7B, lea el blog MPT-7B.
Conclusión
La plataforma MosaicML puede considerarse como el mejor punto de partida para las organizaciones, ya sea privadas, comerciales o comunitarias, para construir LLM personalizados. Tener este recurso de código abierto disponible permitirá a las organizaciones sentirse más libres de usar estas herramientas para mejorar los desafíos organizativos actuales.
Los clientes pueden entrenar LLM en cualquier proveedor de informática o fuente de datos, manteniendo la eficiencia, la privacidad y la transparencia de costos.
¿Para qué crees que usarás MPT-7B? Háganos saber en los comentarios a continuación. Nisha Arya es una científica de datos, escritora técnica independiente y gerente de comunidad en Zepes. Está particularmente interesada en brindar consejos o tutoriales de carrera en ciencia de datos y conocimientos teóricos sobre ciencia de datos. También desea explorar las diferentes formas en que la inteligencia artificial puede beneficiar la longevidad de la vida humana. Una aprendiz entusiasta que busca ampliar sus conocimientos tecnológicos y habilidades de escritura, mientras ayuda a guiar a los demás.