Nuevo modelo de IA supera a GPT-3 con solo 30B de parámetros.

New AI model surpasses GPT-3 with only 30B parameters.

MosaicML, el reconocido proveedor de modelos de lenguaje de código abierto (LLMs), ha presentado recientemente sus innovadores modelos MPT-30B: Base, Instruct y Chat. Estos modelos de última generación, impulsados por los aceleradores H100 de última generación de NVIDIA, representan un salto significativo en calidad en comparación con el original GPT-3.

Lee también: ¿Qué son los modelos de lenguaje grandes (LLMs)?

El éxito sin precedentes de MPT-7B y la evolución a MPT-30B

Desde su lanzamiento en mayo de 2023, los modelos MPT-7B han causado sensación en la industria, acumulando impresionantes 3,3 millones de descargas. Sobre la base de este triunfo, MosaicML ha lanzado ahora los altamente anticipados modelos MPT-30B. Esto eleva la barra aún más alto y desbloquea una miríada de nuevas posibilidades en diversas aplicaciones.

Características inigualables de MPT-30B

Uno de los logros más destacados de MPT-30B es su capacidad para superar la calidad de GPT-3 mientras utiliza solo 30 mil millones de parámetros, una fracción de los 175 mil millones de GPT-3. Esta reducción revolucionaria en el recuento de parámetros no solo hace que MPT-30B sea más accesible para la implementación de hardware local, sino que también reduce significativamente el costo de inferencia. Además, el gasto asociado con la formación de modelos personalizados basados en MPT-30B es notablemente menor que las estimaciones de la formación del original GPT-3, lo que lo convierte en una opción irresistible para las empresas.

Aprende más: Personalización de los modelos de lenguaje grandes GPT3 para casos de uso de la vida real

Además, el entrenamiento de MPT-30B involucró secuencias más largas de hasta 8,000 tokens, lo que le permitió manejar aplicaciones empresariales con muchos datos. Este rendimiento extraordinario es posible gracias a la utilización de las GPUs H100 de NVIDIA, que garantizan un rendimiento superior y tiempos de entrenamiento acelerados.

Lee también: El mercado oculto de China para los potentes chips de IA de Nvidia

Explorando las infinitas aplicaciones de MPT-30B

Numerosas empresas visionarias ya han adoptado los modelos MPT de MosaicML, revolucionando sus aplicaciones de IA:

  • Replit, un innovador entorno de desarrollo integrado (IDE) basado en la web, ha aprovechado con éxito la plataforma de entrenamiento de MosaicML para construir un notable modelo de generación de código. Replit ha logrado mejoras notables en la calidad, velocidad y rentabilidad del código mediante el aprovechamiento de sus datos patentados.
  • Scatter Lab, una innovadora startup de IA especializada en el desarrollo de chatbots, ha aprovechado la tecnología de MosaicML para entrenar su propio modelo MPT. El resultado es un modelo de IA generativo multilingüe capaz de entender tanto el inglés como el coreano, lo que mejora significativamente las experiencias de chat para su amplia base de usuarios.
  • Navan, una empresa de software de gestión de viajes y gastos de renombre mundial, está aprovechando la sólida base proporcionada por MPT para desarrollar LLM personalizados para aplicaciones de vanguardia, como agentes de viajes virtuales y agentes de inteligencia empresarial conversacional. Ilan Twig, cofundador y CTO de Navan, elogia entusiastamente los modelos fundamentales de MosaicML por ofrecer habilidades de lenguaje incomparables junto con una eficiencia notable en la afinación y el servicio de inferencia a escala.

Aprende más: Si eres un líder empresarial que busca aprovechar el poder de la IA, el taller ‘IA para líderes empresariales’ en DataHack Summit 2023 es imperdible.

Accediendo al poder de MPT-30B

Los desarrolladores pueden acceder sin esfuerzo a las capacidades extraordinarias de MPT-30B a través de HuggingFace Hub, que está disponible como modelo de código abierto. Esto permite a los desarrolladores ajustar el modelo utilizando sus datos e implementarlo sin problemas para la inferencia en su infraestructura. Alternativamente, los desarrolladores pueden optar por MPT-30B-Instruct, el punto final administrado de MosaicML, una solución sin complicaciones para la inferencia de modelos a una fracción del costo en comparación con puntos finales similares. Con un precio de solo $0.005 por cada 1,000 tokens, MPT-30B-Instruct ofrece una opción excepcionalmente rentable para los desarrolladores.

Nuestra opinión

El lanzamiento revolucionario de MosaicML de los modelos MPT-30B marca un hito histórico en el dominio de los modelos de lenguaje grandes. Permite a las empresas aprovechar las capacidades incomparables de la IA generativa mientras optimizan costos y mantienen el control total sobre sus datos. En conclusión, MPT-30B representa un verdadero cambio de juego, ofreciendo calidad y rentabilidad incomparables. El futuro tiene un potencial inmenso a medida que más empresas adoptan y aprovechan esta tecnología transformadora para impulsar la innovación en diversas industrias.