Intérprete de código de ChatGPT Haz Ciencia de Datos en minutos
Interprete ChatGPT Haz Ciencia de Datos en minutos
Como científico de datos, siempre busco formas de maximizar la eficiencia y generar valor empresarial con los datos.
Así que cuando ChatGPT lanzó una de sus características más poderosas hasta ahora: el complemento Code Interpreter, simplemente tuve que probarlo e incorporarlo en mis flujos de trabajo.
¿Qué es el Code Interpreter de ChatGPT?
- Explorando Patrones de Diseño en Sistemas de Aprendizaje Automático...
- Convertir imágenes en videos con IA (Tutorial de Runway 2)
- El Laboratorio VIP de SUSTech propone el modelo Track Anything (TAM...
Si aún no has oído hablar de Code Interpreter, esta es una nueva característica que te permite cargar código, ejecutar programas y analizar datos dentro de la interfaz de ChatGPT.
En el último año, cada vez que tenía que depurar código o analizar un documento, tenía que copiar mi trabajo y pegarlo en ChatGPT para obtener una respuesta.
Esto resultaba ser una pérdida de tiempo y la interfaz de ChatGPT tiene un límite de caracteres, lo que limitaba mi capacidad para analizar datos y ejecutar flujos de trabajo de aprendizaje automático.
El Code Interpreter resuelve todos estos problemas al permitirte cargar tus propios conjuntos de datos en la interfaz de ChatGPT.
Y aunque se llama “Code Interpreter”, esta característica no se limita a los programadores, el complemento puede ayudarte a analizar archivos de texto, resumir documentos PDF, construir visualizaciones de datos e incluso recortar imágenes según la relación deseada.
¿Cómo puedes acceder al Code Interpreter?
Antes de entrar en sus aplicaciones, repasemos rápidamente cómo puedes empezar a usar el complemento Code Interpreter.
Para acceder a este complemento, debes tener una suscripción de pago a ChatGPT Plus, que actualmente cuesta $20 al mes.
Desafortunadamente, Code Interpreter no está disponible para usuarios que no estén suscritos a ChatGPT Plus.
Una vez que tengas una suscripción de pago, simplemente ve a ChatGPT y haz clic en los tres puntos en la parte inferior izquierda de la interfaz.
Luego, selecciona Configuración:
Haz clic en “Funciones beta” y activa el control deslizante que dice Code Interpreter:
Finalmente, haz clic en “Nuevo Chat”, selecciona la opción “GPT-4” y elige “Code Interpreter” en el menú desplegable que aparece:
Verás una pantalla que se ve así, con un símbolo “+” cerca del cuadro de texto:
¡Genial! Ahora has habilitado correctamente el Code Interpreter de ChatGPT.
En este artículo, te mostraré cinco formas en las que puedes usar el Code Interpreter para automatizar flujos de trabajo de ciencia de datos.
1. Resumen de datos
Como científico de datos, paso mucho tiempo tratando de entender las diferentes variables presentes en el conjunto de datos.
El Code Interpreter hace un gran trabajo al desglosar cada punto de datos para ti.
Así es cómo puedes hacer que el modelo te ayude a resumir datos:
Utilicemos el conjunto de datos de Predicción de Supervivencia del Titanic en Kaggle como ejemplo. Voy a usar el archivo “train.csv”.
Descarga el conjunto de datos y ve a Code Interpreter:
Haz clic en el símbolo “+” y carga el archivo que deseas resumir.
Luego, pídele a ChatGPT que explique todas las variables de este archivo en términos sencillos:
¡Voilà!
El Code Interpreter nos proporcionó explicaciones sencillas de cada variable en el conjunto de datos.
2. Análisis Exploratorio de Datos
Ahora que tenemos una comprensión de las diferentes variables en el conjunto de datos, pidamos al Intérprete de Código que vaya un paso más allá y realice un análisis exploratorio de datos (EDA, por sus siglas en inglés).
El modelo ha generado 5 gráficos que nos permiten comprender mejor las diferentes variables en este conjunto de datos.
Si haces clic en el desplegable “Mostrar trabajo”, notarás que el Intérprete de Código ha escrito y ejecutado código Python para ayudarnos a obtener el resultado final:
Imagen del autor
Siempre puedes copiar y pegar este código en tu propio cuaderno de Jupyter si deseas realizar un análisis más detallado.
ChatGPT también nos ha proporcionado información sobre el conjunto de datos basado en las visualizaciones generadas:
Imagen del autor
Nos está diciendo que las mujeres, los pasajeros de primera clase y los pasajeros más jóvenes tenían tasas de supervivencia más altas.
Estos son conocimientos que llevarían tiempo obtener manualmente, especialmente si no estás familiarizado con Python y bibliotecas de visualización de datos como Matplotlib.
El Intérprete de Código los generó en segundos, reduciendo significativamente el tiempo necesario para realizar el EDA.
3. Preprocesamiento de Datos
Paso mucho tiempo limpiando conjuntos de datos y preparándolos para el proceso de modelado.
Pidámosle al Intérprete de Código que nos ayude a preprocesar este conjunto de datos:
Imagen del autor
El Intérprete de Código ha delineado todos los pasos involucrados en el proceso de limpieza de este conjunto de datos.
Nos está diciendo que debemos manejar tres columnas con valores faltantes, codificar dos variables categóricas, realizar ingeniería de características y eliminar columnas que no son relevantes para el proceso de modelado.
Luego creó un programa Python que realizó todo el preprocesamiento en cuestión de segundos.
Puedes hacer clic en “Mostrar trabajo” si deseas entender los pasos realizados por el modelo para realizar la limpieza de datos:
Imagen del autor
Luego, le pregunté a ChatGPT cómo podía guardar el archivo de salida, y me proporcionó un archivo CSV descargable:
Imagen del autor
Observa que ni siquiera tuve que ejecutar una línea de código durante todo este proceso.
El Intérprete de Código pudo procesar mi archivo, ejecutar código dentro de la interfaz y proporcionarme la salida en tiempo récord.
4. Construcción de Modelos de Aprendizaje Automático
Por último, le pedí al Intérprete de Código que utilizara el archivo preprocesado para construir un modelo de aprendizaje automático para predecir si una persona sobreviviría al naufragio del Titanic:
Imagen del autor
Construyó el modelo en menos de un minuto y logró alcanzar una precisión del 83.2%.
También me proporcionó una matriz de confusión y un informe de clasificación que resumían el rendimiento del modelo, y explicó qué representaban todas las métricas:
Imagen del autor
Le pedí a ChatGPT que me proporcionara un archivo de salida que mapeara las predicciones del modelo con los datos de los pasajeros.
También quería un archivo descargable del modelo de aprendizaje automático que creó, ya que siempre podemos realizar ajustes adicionales y entrenar sobre él en el futuro:
Imagen por el autor
5. Explicaciones de código
Otra aplicación del Intérprete de Código que encontré útil fue su capacidad para proporcionar explicaciones de código.
Hace unos días, estaba trabajando en un modelo de análisis de sentimientos y encontré en GitHub un código relevante para mi caso de uso.
No entendía todo el código, ya que el autor había importado bibliotecas con las que no estaba familiarizado.
Con el Intérprete de Código, simplemente puedes cargar un archivo de código y pedirle que explique cada línea de manera clara.
También puedes pedirle que depure y optimice el código para obtener un mejor rendimiento.
Aquí tienes un ejemplo: subí un archivo que contenía código que escribí hace años para construir un panel en Python:
Imagen por el autor
El Intérprete de Código desglosó mi código y describió claramente lo que se hizo en cada sección.
Imagen por el autor
También sugirió refactorizar mi código para mejorar la legibilidad y explicó dónde podría incluir nuevas secciones.
En lugar de hacer esto yo mismo, simplemente le pedí al Intérprete de Código que refactorizara el código y me proporcionara una versión mejorada:
Imagen por el autor
El Intérprete de Código reescribió mi código para encapsular cada visualización en funciones separadas, lo que facilita la comprensión y la actualización.
¿Qué significa el Intérprete de Código de ChatGPT para los científicos de datos?
Hay mucho entusiasmo en torno al Intérprete de Código en este momento, ya que es la primera vez que presenciamos una herramienta que puede procesar código, entender lenguaje natural y realizar flujos de trabajo completos de ciencia de datos.
Sin embargo, es importante tener en cuenta que esta es solo otra herramienta que nos ayudará a hacer ciencia de datos de manera más eficiente.
Hasta ahora, lo he estado usando para construir modelos de referencia con datos ficticios, ya que no se me permite cargar información sensible de la empresa en la interfaz de ChatGPT.
Además, el Intérprete de Código no tiene conocimiento específico del dominio. Generalmente uso las predicciones que genera como pronósticos de referencia, pero a menudo tengo que ajustar la salida que genera para que se ajuste al caso de uso de mi organización.
No puedo presentar los números generados por un algoritmo que no tiene visibilidad de los procesos internos de la empresa.
Finalmente, no uso el Intérprete de Código para todos los proyectos, ya que algunos de los datos con los que trabajo comprenden millones de filas y se encuentran en bases de datos SQL.
Esto significa que aún tengo que realizar gran parte de la consulta, extracción y transformación de datos por mí mismo.
Si eres un científico de datos principiante o aspiras a ser uno, te sugiero que aprendas a aprovechar herramientas como el Intérprete de Código para realizar las partes mundanas de tu trabajo de manera más eficiente.
Eso es todo por este artículo, ¡gracias por leer! Natassha Selvaraj es una científica de datos autodidacta con pasión por la escritura. Puedes conectarte con ella en LinkedIn.