Cómo las empresas pueden construir su propio modelo de lenguaje grande similar al ChatGPT de OpenAI
Cómo construir un modelo de lenguaje similar a ChatGPT de OpenAI.
¿Quieres construir tu propio ChatGPT? Aquí te presentamos tres formas de hacerlo
Introducción
Los modelos de lenguaje han ganado una atención significativa en los últimos años, revolucionando diversos campos como el procesamiento del lenguaje natural, la generación de contenido y los asistentes virtuales. Uno de los ejemplos más prominentes es el ChatGPT de OpenAI, un modelo de lenguaje grande que puede generar texto similar al humano y participar en conversaciones interactivas. Esto ha despertado la curiosidad de las empresas, llevándolas a explorar la idea de construir sus propios modelos de lenguaje grandes (LLM, por sus siglas en inglés).
Sin embargo, la decisión de embarcarse en la construcción de un LLM debe ser revisada con cuidado. Requiere recursos significativos, tanto en términos de potencia computacional como de disponibilidad de datos. Las empresas deben sopesar los beneficios frente a los costos, evaluar la experiencia técnica requerida y evaluar si se alinea con sus objetivos a largo plazo.
En este artículo, te mostramos tres formas de construir tu propio LLM, similar al ChatGPT de OpenAI. Al final de este artículo, tendrás una comprensión más clara de los desafíos, requisitos y recompensas potenciales asociadas con la construcción de tu propio modelo de lenguaje grande. ¡Así que vamos a sumergirnos!
¿Deberían las empresas construir su propio LLM?
Para comprender si las empresas deberían construir su propio LLM, exploremos las tres formas principales en las que pueden aprovechar estos modelos.

1. LLMs de fuentes cerradas: Las empresas pueden utilizar servicios de LLM preexistentes como el ChatGPT de OpenAI, Bard de Google u ofertas similares de diferentes proveedores. Estos servicios proporcionan una solución lista para usar, permitiendo a las empresas aprovechar el poder de los LLM sin la necesidad de una inversión significativa en infraestructura o experiencia técnica.
- Desatando el Tokenizador ChatGPT
- RAPIDS Utiliza GPU para acelerar modelos de ML fácilmente.
- Aprendiendo los conceptos básicos para tu próximo proyecto de LangC...
Pros:
- Implementación rápida y fácil, ahorrando tiempo y esfuerzo.
- Buen rendimiento en tareas de generación de texto genérico.
Contras:
- Control limitado sobre el comportamiento y las respuestas del modelo.
- Menor precisión en datos específicos del dominio de la empresa.
- Inquietudes sobre la privacidad de los datos, ya que se envían a un tercero que aloja el servicio.
- Dependencia de proveedores externos y posibles fluctuaciones de precios.
2. Uso de LLMs específicos del dominio: Otra opción es utilizar modelos de lenguaje específicos del dominio, como BloombergGPT para finanzas, BioMedLM para aplicaciones biomédicas, MarketingGPT para aplicaciones de marketing, CommerceGPT para aplicaciones de comercio electrónico, etc. Estos modelos se entrenan con datos específicos del dominio y permiten respuestas más precisas y adaptadas en sus respectivos campos.
Pros:
- Mayor precisión en dominios específicos debido al entrenamiento con datos relevantes.
- Disponibilidad de modelos preentrenados adaptados a industrias específicas.
Contras:
- Flexibilidad limitada para adaptar el modelo más allá de su dominio designado.
- Dependencia de las actualizaciones del proveedor y la disponibilidad de modelos específicos del dominio.
- Mayor precisión pero aún limitada por no ser específica de los datos de tu empresa.
- Inquietudes sobre la privacidad de los datos, ya que se envían a un tercero que aloja el servicio.
3. Construir y alojar un LLM personalizado: La opción más completa es que las empresas construyan y alojen su propio LLM utilizando sus datos específicos. Este enfoque proporciona el mayor nivel de personalización y control de privacidad sobre el contenido generado. Permite a las organizaciones ajustar el modelo a sus requisitos únicos, garantizando precisión específica del dominio y alineación con la voz de su marca.
Pros:
- Personalización y control completos: Un modelo personalizado permite a las empresas generar respuestas que se alinean precisamente con la voz de su marca, terminología específica de la industria y requisitos únicos.
- Rentable: si se configura correctamente (costos de ajuste fino del orden de cientos de dólares).
- Transparente: Los datos y el modelo completo son conocidos por la empresa.
- Mejor precisión: Al entrenar el modelo con datos y requisitos específicos de la empresa, puede comprender y responder mejor a consultas específicas de la empresa, lo que resulta en salidas más precisas y contextualmente relevantes.
- Amigable con la privacidad: Los datos y el modelo permanecen en tu entorno. Tener un modelo personalizado permite a las empresas mantener el control sobre sus datos confidenciales, minimizando las preocupaciones relacionadas con la privacidad de los datos y las violaciones de seguridad.
- Ventaja competitiva: Un modelo de lenguaje grande personalizado puede ser un diferenciador significativo en industrias donde el procesamiento de lenguaje personalizado y preciso juega un papel crucial.
Contras:
- Se necesita una gran experiencia en ML y LLM para construir un modelo de lenguaje personalizado a gran escala
Es importante tener en cuenta que el enfoque para LLM personalizado depende de varios factores, incluido el presupuesto de la empresa, las limitaciones de tiempo, la precisión requerida y el nivel de control deseado. Sin embargo, como se puede ver en los ejemplos anteriores, la construcción de un LLM personalizado sobre datos específicos de la empresa ofrece numerosos beneficios.
Los modelos de lenguaje personalizados a gran escala ofrecen una personalización, control y precisión incomparables para dominios, casos de uso y requisitos empresariales específicos. Por lo tanto, las empresas deben buscar construir su propio modelo de lenguaje personalizado a gran escala específico de la empresa, para desbloquear un mundo de posibilidades adaptadas específicamente a sus necesidades, industria y base de clientes.
Tres formas de construir su propio modelo de lenguaje personalizado a gran escala
Puede construir su LLM personalizado de tres formas, que van desde baja complejidad hasta alta complejidad, como se muestra en la siguiente imagen.

L1. LLM Aprovechado por Utilización
Un método predominante para aprovechar los LLM preentrenados consiste en diseñar técnicas efectivas de promoción para abordar diversas tareas. Un ejemplo de un enfoque común de promoción es el Aprendizaje en Contexto (ICL), que implica expresar descripciones de tareas y/o demostraciones en texto de lenguaje natural. Además, la utilización de Cadena de Pensamiento (CoT) puede mejorar el aprendizaje en contexto al incorporar una secuencia de pasos de razonamiento intermedios en las promociones. Para construir un L1 LLM,

Para construir un L1 LLM,
- Comience seleccionando un LLM preentrenado adecuado (que se puede encontrar en la biblioteca de modelos de Hugging Face u otros recursos en línea), asegurándose de que sea compatible con uso comercial revisando la licencia.
- A continuación, identifique fuentes de datos relevantes para su dominio o caso de uso específico, ensamblando un conjunto de datos diverso y completo que abarque una amplia gama de temas y variaciones de lenguaje. Para L1 LLM, no se requieren datos etiquetados.
- En el proceso de personalización, los parámetros del modelo del LLM preentrenado elegido permanecen sin cambios. En su lugar, se emplean técnicas de ingeniería de promoción para adaptar las respuestas del LLM al conjunto de datos.
- Como se mencionó anteriormente, el Aprendizaje en Contexto y la Promoción de Cadena de Pensamiento son dos enfoques populares de ingeniería de promoción. Estas técnicas, conocidas colectivamente como Ajuste Eficiente de Recursos (RET), ofrecen un medio simplificado de obtener respuestas sin requerir recursos significativos de infraestructura.
L2. LLM Ajustado por Instrucciones
El ajuste por instrucciones es el enfoque para el ajuste fino de LLMs preentrenados en una colección de instancias formateadas en forma de lenguaje natural, que está altamente relacionado con el ajuste fino supervisado y el entrenamiento guiado por múltiples tareas. Con el ajuste por instrucciones, se habilita a los LLMs para seguir las instrucciones de la tarea para nuevas tareas sin utilizar ejemplos explícitos (similar a la capacidad de cero disparo), lo que mejora su capacidad de generalización. Para construir este L2 LLM ajustado por instrucciones,
- Comience seleccionando un LLM preentrenado adecuado (que se puede encontrar en la biblioteca de modelos de Hugging Face u otros recursos en línea), asegurándose de que sea compatible con uso comercial revisando la licencia.
- A continuación, identifique fuentes de datos relevantes para su dominio o caso de uso objetivo. Se necesita un conjunto de datos etiquetados que contenga una variedad de instrucciones específicas para su dominio o caso de uso. Por ejemplo, puede consultar el conjunto de datos dolly-15k proporcionado por Databricks, que ofrece instrucciones en diferentes formatos como preguntas cerradas, preguntas abiertas, clasificación, recuperación de información y más. Este conjunto de datos puede servir como plantilla para construir su propio conjunto de datos de instrucciones.
- En el proceso de ajuste fino supervisado, se introducen nuevos parámetros de modelo en el LLM base original elegido en el paso 1. Al agregar estos parámetros, podemos entrenar el modelo durante un número específico de épocas para ajustarlo a las instrucciones dadas. La ventaja de este enfoque es que evita la necesidad de actualizar miles de millones de parámetros presentes en el LLM base, en su lugar se centra en un número menor de parámetros adicionales (miles o millones) y aún así se obtienen resultados precisos en la tarea deseada. Este enfoque también ayuda a reducir costos.
- El siguiente paso es realizar el ajuste fino. Se pueden utilizar diversas técnicas de ajuste fino como ajuste de prefijos, adaptadores, atención de bajo rango y más, sobre las cuales se ampliará en un artículo futuro. El proceso de agregar nuevos parámetros de modelo discutido en el punto 3 anterior también depende de estas técnicas. Para obtener información más detallada, consulte la sección de referencias. Estas técnicas se incluyen en la categoría de Ajuste Fino Eficiente de Parámetros (PEFT), ya que permiten la personalización sin actualizar todos los parámetros del LLM base.
L3. Alineación de LLM Ajustada
Dado que los LLMs están entrenados para capturar las características de los datos de los corpus de pre-entrenamiento (que incluyen datos de alta calidad y baja calidad), es probable que generen contenido tóxico, sesgado o incluso dañino para los seres humanos. Por lo tanto, puede ser necesario alinear los LLMs con los valores humanos, por ejemplo, útil, honesto e inofensivo. Para este propósito de alineación, utilizamos la técnica de aprendizaje por refuerzo con retroalimentación humana (RLHF), un enfoque efectivo que permite a los LLMs seguir las instrucciones esperadas. Incorpora a los humanos en el ciclo de entrenamiento con estrategias de etiquetado cuidadosamente diseñadas. Para construir este LLM de nivel L3 ajustado a la alineación,
- Comienza seleccionando un LLM pre-entrenado de código abierto (que se puede encontrar en la biblioteca de modelos de Hugging Face u otros recursos en línea) o tu LLM de nivel L2 como modelo base.
- La técnica principal para construir un LLM ajustado a la alineación es RLHF, que combina el aprendizaje supervisado y el aprendizaje por refuerzo. Comienza tomando un LLM ajustado finamente a un dominio específico o a un corpus de instrucciones (del paso 1) y lo utiliza para generar respuestas. Luego, esas respuestas se anotan usando un humano para entrenar un modelo de recompensa supervisado (típicamente utilizando otro LLM pre-entrenado como modelo base). Finalmente, el LLM (del paso 1) se ajusta finamente nuevamente realizando aprendizaje por refuerzo (PPO) con el modelo de recompensa para generar la respuesta final.
- De esta manera, se entrenan dos LLMs: uno para el modelo de recompensa y otro para ajustar finamente el LLM para generar la respuesta final. Los parámetros del modelo base en ambos casos se pueden actualizar selectivamente, según la precisión deseada en la respuesta. Por ejemplo, en algunos métodos de RLHF, solo se actualizan los parámetros en capas o componentes específicos involucrados en el aprendizaje por refuerzo para evitar el sobreajuste y retener el conocimiento general capturado por el LLM pre-entrenado.
Un aspecto interesante de este proceso es que los sistemas exitosos de RLHF hasta la fecha han utilizado modelos de lenguaje de recompensa con tamaños variables en relación con la generación de texto (por ejemplo, OpenAI 175B LM, modelo de recompensa de 6B, Anthropic utiliza LM y modelos de recompensa de 10B a 52B, DeepMind utiliza modelos Chinchilla de 70B para ambos, LM y recompensa). Intuitivamente, estos modelos de preferencia deben tener una capacidad similar para comprender el texto que se les proporciona, como la que un modelo necesitaría para generar dicho texto.
También existe RLAIF (Aprendizaje por Refuerzo con Retroalimentación de IA) que se puede utilizar en lugar de RLHF. La principal diferencia aquí es que, en lugar de la retroalimentación humana, un modelo de IA sirve como evaluador o crítico, proporcionando retroalimentación al agente de IA durante el proceso de aprendizaje por refuerzo.
Conclusión
Las empresas pueden aprovechar el extraordinario potencial de los LLM personalizados para lograr una personalización, control y precisión excepcionales que se alineen con sus dominios específicos, casos de uso y demandas organizativas. La construcción de un LLM personalizado específico de la empresa permite a las empresas desbloquear una multitud de oportunidades adaptadas perfectamente a sus requisitos únicos, dinámicas de la industria y base de clientes.
El camino hacia la construcción de un LLM personalizado propio tiene tres niveles, comenzando desde baja complejidad del modelo, precisión y costo hasta alta complejidad del modelo, precisión y costo. Las empresas deben equilibrar este compromiso para adaptarse a sus necesidades y extraer el retorno de inversión de su iniciativa de LLM.

Referencias
- ¿Qué es el diseño de instrucciones?
- Aprendizaje en Contexto (ICL) – Q. Dong, L. Li, D. Dai, C. Zheng, Z. Wu, B. Chang, X. Sun, J. Xu, L. Li y Z. Sui, “Una encuesta sobre el aprendizaje en contexto,” CoRR, vol. abs/2301.00234, 2023.
- ¿Cómo funciona el aprendizaje en contexto? Un marco para comprender las diferencias respecto al aprendizaje supervisado tradicional | Blog de SAIL (stanford.edu)
- Promoción de la Cadena de Pensamiento – J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. H. Chi, Q. Le y D. Zhou, “La promoción de la cadena de pensamiento provoca el razonamiento en modelos de lenguaje grandes,” CoRR, vol. abs/2201.11903, 2022.
- Los modelos de lenguaje realizan el razonamiento a través de la cadena de pensamiento – Blog de Google AI (googleblog.com)
- Ajuste de Instrucciones – J. Wei, M. Bosma, V. Y. Zhao, K. Guu, A. W. Yu, B. Lester, N. Du, A. M. Dai y Q. V. Le, “Los modelos de lenguaje ajustados finamente son aprendices de cero,” en la Décima Conferencia Internacional sobre Representaciones de Aprendizaje, ICLR 2022, Evento Virtual, del 25 al 29 de abril de 2022. OpenReview.net, 2022.
- Una encuesta de Modelos de Lenguaje Grandes – Wayne Xin Zhao, Kun Zhou*, Junyi Li*, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie y Ji-Rong Wen, arXiv:2303.18223v4 [cs.CL], 12 de abril de 2023