Usar modelos GPT para generar datos de texto para entrenar modelos de aprendizaje automático

Usar modelos GPT para generar datos de texto para entrenar modelos de ML

Una guía paso a paso en Python

Foto de Claudio Schwarz en Unsplash

Motivación

Los datos son fundamentales para construir modelos de Aprendizaje Automático, sin embargo, recopilar datos de texto para entrenar modelos de Aprendizaje Automático puede ser difícil debido a las siguientes razones:

  • Los conjuntos de datos de texto de código abierto son limitados. Las reglas de privacidad y la confidencialidad comercial a menudo restringen la distribución de datos privilegiados. Además, los conjuntos de datos disponibles públicamente pueden no tener licencia para uso comercial, o peor aún, pueden no ser relevantes para el contexto. Por ejemplo, las críticas de películas de IMDB probablemente no sean significativas para analizar los sentimientos de los clientes hacia los productos bancarios.
  • Los modelos de Aprendizaje Automático típicamente necesitan una gran cantidad de datos de entrenamiento para funcionar bien. Puede llevarle mucho tiempo a una empresa, especialmente a una startup, recolectar una línea creíble de datos de texto. Además, estos datos pueden no haber sido etiquetados con una variable de respuesta para una tarea de Aprendizaje Automático específica. Por ejemplo, una empresa puede haber estado recopilando quejas de clientes textualmente, pero es posible que no tenga un entendimiento detallado de los temas o sentimientos de estas quejas.

¿Cómo podemos superar las limitaciones anteriores y generar datos de texto adecuados para un propósito de manera escalable y rentable? Dado los avances recientes en los Modelos de Lenguaje Grande y la Inteligencia Artificial Generativa, este artículo* proporciona un tutorial sobre cómo generar datos de texto sintéticos llamando a los conjuntos de modelos GPT de OpenAI en Python.

Para demostrarlo, exploremos un caso de uso de generación de datos de quejas de clientes para una compañía de seguros. Con datos de texto enriquecidos para entrenar modelos de lenguaje, el caso de uso es que la compañía podría lograr mejores resultados para los clientes al desempeñarse mejor en tareas de Comprensión del Lenguaje Natural, como categorizar las quejas en temas o evaluar los sentimientos de los quejantes.

*Este artículo es 100% gratuito de ChatGPT.

Prerrequisito: Configuración de una clave de API de OpenAI

Para poder llamar a los modelos GPT, simplemente regístrese en una cuenta de OpenAI y acceda a la clave de API en la configuración de usuario. Asegúrese de mantener esta clave en privado.