Presentando el modelo de lenguaje multilingüe abierto más grande del mundo BLOOM

Introducing BLOOM, the world's largest open multilingual language model.

Los modelos de lenguaje grandes (LLM) han tenido un impacto significativo en la investigación de la IA. Estos modelos potentes y generales pueden realizar una amplia variedad de tareas de lenguaje nuevas a partir de las instrucciones de un usuario. Sin embargo, las instituciones académicas, las organizaciones sin fines de lucro y los laboratorios de investigación de empresas más pequeñas encuentran difícil crear, estudiar o incluso usar LLM, ya que solo unos pocos laboratorios industriales con los recursos necesarios y los derechos exclusivos pueden acceder a ellos por completo. Hoy, lanzamos BLOOM, el primer LLM multilingüe entrenado con total transparencia, para cambiar este statu quo, el resultado de la colaboración más grande de investigadores de IA jamás involucrados en un solo proyecto de investigación.

Con sus 176 mil millones de parámetros, BLOOM puede generar texto en 46 idiomas naturales y 13 lenguajes de programación. Para casi todos ellos, como el español, francés y árabe, BLOOM será el primer modelo de lenguaje con más de 100 mil millones de parámetros jamás creado. Esto es el resultado de un año de trabajo que involucró a más de 1000 investigadores de más de 70 países y 250 instituciones, lo que llevó a una ejecución final de 117 días (del 11 de marzo al 6 de julio) entrenando el modelo BLOOM en el supercomputador Jean Zay en el sur de París, Francia, gracias a una subvención de cómputo valorada en aproximadamente 3 millones de euros de las agencias de investigación francesas CNRS y GENCI.

Ahora los investigadores pueden descargar, ejecutar y estudiar BLOOM para investigar el rendimiento y comportamiento de los modelos de lenguaje grandes recientemente desarrollados hasta sus operaciones internas más profundas. De manera más general, cualquier individuo o institución que acepte los términos de la Licencia de IA Responsable del modelo (desarrollada durante el propio proyecto BigScience) puede usar y construir sobre el modelo en una máquina local o en un proveedor de nube. En este espíritu de colaboración y mejora continua, también estamos liberando, por primera vez, los puntos de control intermedios y los estados del optimizador del entrenamiento. ¿No tienes 8 A100 para jugar? Una API de inferencia, respaldada actualmente por la nube TPU de Google y una versión FLAX del modelo, también permite pruebas rápidas, prototipos y uso a menor escala. Ya puedes probarlo en el Hugging Face Hub.

Esto es solo el comienzo. Las capacidades de BLOOM seguirán mejorando a medida que el taller continúe experimentando y modificando el modelo. Hemos comenzado a trabajar para hacerlo instructivo como lo fue nuestro esfuerzo anterior T0++, y tenemos previsto agregar más idiomas, comprimir el modelo en una versión más utilizable con el mismo nivel de rendimiento y utilizarlo como punto de partida para arquitecturas más complejas… Todos los experimentos que los investigadores y profesionales siempre han querido realizar, empezando por el poder de un modelo de más de 100 mil millones de parámetros, ahora son posibles. BLOOM es la semilla de una familia de modelos vivos que pretendemos hacer crecer, no solo un modelo único, y estamos listos para apoyar los esfuerzos de la comunidad para expandirlo.