Libro de jugadas de Pandas 7 funciones de datos completas que debes conocer

Libro de jugadas de Pandas 7 funciones de datos esenciales

Imagen generada usando DALL·E 2

En el ámbito del análisis de datos y el aprendizaje automático, la biblioteca Pandas se presenta como una herramienta poderosa. Con más de 200 funciones y métodos, te permite manipular y transformar datos, pero también te hace incapaz de manipular y transformar datos debido a su complejidad. Es una espada de doble filo.

Por lo tanto, exploraremos las funciones y métodos más comunes y útiles de Pandas. Conocer esto te llevará por delante de otros principiantes que aprenden Pandas.

Utilizaremos un pseudoconjunto de datos en todo el curso de este artículo.

El primer paso es importar pandas como pd. Esta es una de las mejores prácticas para importar pandas, ya que pd es una abreviatura bien conocida para pandas.

import pandas as pd

Importando tus datos

Antes de cualquier manipulación de datos, debes importar tus datos. La función read_csv() es tu punto de entrada para cargar conjuntos de datos en DataFrames de Pandas. Al especificar la ruta del archivo, esta función da vida a los datos, lo que te permite comenzar tu exploración y análisis de datos.

Para importar, sigue esta sintaxis e ingresa la ruta de tu archivo de conjunto de datos.

In[*]  car_sales = pd.read_csv("./data/car-sales.csv")       car_sales
Resultado

Un vistazo a tus datos

¿Curioso acerca de las primeras o últimas filas de tu DataFrame? head() y tail() ofrecen un vistazo rápido, ayudándote a evaluar la estructura y contenido de tu conjunto de datos. Ideal para una comprensión preliminar antes de sumergirse en transformaciones de datos. Puedes ingresar un argumento dentro de head(9) y tail(9) para especificar cuántos elementos te gustaría ver. El valor predeterminado es 5 elementos.

Para ilustrar, ve el código de ejemplo de entrada y salida a continuación.

In[*]  car_sales.head()
Resultado
In[*]  car_sales.tail()
Resultado

Conoce tus datos al dedo

La función info() es tu detective de datos. Proporciona un resumen completo de tu DataFrame, mostrando el número de entradas no nulas, tipos de datos, uso de memoria y más. Esta descripción general rápida puede guiar tus esfuerzos de limpieza y preparación de datos.

In[*]  car_sales.info()
Resultado

Descubre estadísticas descriptivas

Las ideas estadísticas están a solo una función de distancia. La función describe() proporciona una gran cantidad de estadísticas descriptivas, incluyendo la media, mediana, mínimo, máximo y cuartiles. Obtén una instantánea de la distribución de tus datos numéricos y detecta posibles valores atípicos. Recuerda que describe() puede no mostrar información significativa, siempre dependerá de tus conjuntos de datos.

In[*]  car_sales.describe()
Resultado

Agrupando para Obtener Ideas

Los datos suelen contar una historia más completa cuando se agrupan por atributos específicos. La función groupby() te permite segmentar los datos basándote en una columna en particular, lo que la convierte en una herramienta esencial para la agregación, el resumen y la visualización de tendencias dentro de tu conjunto de datos.

In[*]  car_sales.groupby(["Marca"]).mean()
Resultado

Potenciando Transformaciones Personalizadas

A veces, las funciones predefinidas no son suficientes. La función apply() te brinda la libertad de aplicar funciones personalizadas a tus datos. Esta flexibilidad te permite realizar transformaciones de datos adaptadas a tus necesidades específicas. Esto también es importante para manipular y limpiar tus conjuntos de datos.

En este ejemplo, vamos a aplicar una función lambda para eliminar los caracteres $, , y .00 en los precios y convertirlos a int para realizar funciones significativas. Observa el ANTES y el DESPUÉS de los precios.

In[*]  car_sales["Precio"] = car_sales["Precio"].apply(lambda x: x.replace(".00", '')).str.replace('[\$\,]', '').astype(int)       car_sales
ANTES
DESPUÉS

Abordando Datos Faltantes

Trabajar con datos faltantes es un desafío común. La función fillna() te permite reemplazar valores faltantes, mientras que dropna() te permite eliminar filas o columnas con datos faltantes. Estas funciones aseguran que tu análisis se base en información completa y precisa.

Para ilustrar, importemos un nuevo conjunto de datos con datos faltantes.

In[*]  car_sales_missing = pd.read_csv("./data/car-sales-missing-data.csv")       car_sales_missing
Resultado

Podemos ver claramente que algunos datos de Odometer tienen un valor de NaN. Usemos fillna() y rellenemos el valor faltante con la media de Odometer.

In[*]  car_sales_missing["Odometer"] = car_sales_missing["Odometer"].fillna(car_sales_missing["Odometer"].mean())
Resultado

Ahora, Colores, Puertas y Precio son los únicos con NaN, ubicados en los índices 6, 7, 8 y 9 respectivamente. Vamos a eliminar las filas y columnas que contengan NaN utilizando dropna().

In[*]  car_sales_missing = car_sales_missing.dropna()       car_sales_missing
Resultado

Pandas es más que una simple biblioteca; es una puerta de entrada a la manipulación y el análisis efectivos de datos. Con estas funciones esenciales, estás preparado para enfrentar desafíos de datos del mundo real y problemas de aprendizaje automático con confianza. Ya seas un científico de datos, analista o ingeniero de aprendizaje automático, Pandas te capacita para transformar conjuntos de datos desordenados en ideas valiosas. Así que sumérgete, experimenta y desbloquea el potencial ilimitado de Pandas para tus proyectos basados en datos.

Mantente curioso y mantén tu mente analítica estimulada!

Si quieres explorar más sobre Pandas, considera echar un vistazo a su documentación!