Libro de jugadas de Pandas 7 funciones de datos completas que debes conocer
Libro de jugadas de Pandas 7 funciones de datos esenciales

En el ámbito del análisis de datos y el aprendizaje automático, la biblioteca Pandas se presenta como una herramienta poderosa. Con más de 200 funciones y métodos, te permite manipular y transformar datos, pero también te hace incapaz de manipular y transformar datos debido a su complejidad. Es una espada de doble filo.
Por lo tanto, exploraremos las funciones y métodos más comunes y útiles de Pandas. Conocer esto te llevará por delante de otros principiantes que aprenden Pandas.
Utilizaremos un pseudoconjunto de datos en todo el curso de este artículo.
El primer paso es importar pandas
como pd
. Esta es una de las mejores prácticas para importar pandas, ya que pd
es una abreviatura bien conocida para pandas.
import pandas as pd
Importando tus datos
Antes de cualquier manipulación de datos, debes importar tus datos. La función read_csv()
es tu punto de entrada para cargar conjuntos de datos en DataFrames de Pandas. Al especificar la ruta del archivo, esta función da vida a los datos, lo que te permite comenzar tu exploración y análisis de datos.
- Una guía simple de Hugging Face para chatear con el modelo Llama-2 ...
- Aumenta tu tasa de respuesta con un perfil de LinkedIn
- Creciente preocupación pública sobre el papel de la inteligencia ar...
Para importar, sigue esta sintaxis e ingresa la ruta de tu archivo de conjunto de datos.
In[*] car_sales = pd.read_csv("./data/car-sales.csv") car_sales

Un vistazo a tus datos
¿Curioso acerca de las primeras o últimas filas de tu DataFrame? head()
y tail()
ofrecen un vistazo rápido, ayudándote a evaluar la estructura y contenido de tu conjunto de datos. Ideal para una comprensión preliminar antes de sumergirse en transformaciones de datos. Puedes ingresar un argumento dentro de head(9)
y tail(9)
para especificar cuántos elementos te gustaría ver. El valor predeterminado es 5 elementos.
Para ilustrar, ve el código de ejemplo de entrada y salida a continuación.
In[*] car_sales.head()

In[*] car_sales.tail()

Conoce tus datos al dedo
La función info()
es tu detective de datos. Proporciona un resumen completo de tu DataFrame, mostrando el número de entradas no nulas, tipos de datos, uso de memoria y más. Esta descripción general rápida puede guiar tus esfuerzos de limpieza y preparación de datos.
In[*] car_sales.info()

Descubre estadísticas descriptivas
Las ideas estadísticas están a solo una función de distancia. La función describe()
proporciona una gran cantidad de estadísticas descriptivas, incluyendo la media, mediana, mínimo, máximo y cuartiles. Obtén una instantánea de la distribución de tus datos numéricos y detecta posibles valores atípicos. Recuerda que describe()
puede no mostrar información significativa, siempre dependerá de tus conjuntos de datos.
In[*] car_sales.describe()

Agrupando para Obtener Ideas
Los datos suelen contar una historia más completa cuando se agrupan por atributos específicos. La función groupby()
te permite segmentar los datos basándote en una columna en particular, lo que la convierte en una herramienta esencial para la agregación, el resumen y la visualización de tendencias dentro de tu conjunto de datos.
In[*] car_sales.groupby(["Marca"]).mean()

Potenciando Transformaciones Personalizadas
A veces, las funciones predefinidas no son suficientes. La función apply()
te brinda la libertad de aplicar funciones personalizadas a tus datos. Esta flexibilidad te permite realizar transformaciones de datos adaptadas a tus necesidades específicas. Esto también es importante para manipular y limpiar tus conjuntos de datos.
En este ejemplo, vamos a aplicar una función lambda
para eliminar los caracteres $
, ,
y .00
en los precios y convertirlos a int
para realizar funciones significativas. Observa el ANTES
y el DESPUÉS
de los precios.
In[*] car_sales["Precio"] = car_sales["Precio"].apply(lambda x: x.replace(".00", '')).str.replace('[\$\,]', '').astype(int) car_sales


Abordando Datos Faltantes
Trabajar con datos faltantes es un desafío común. La función fillna()
te permite reemplazar valores faltantes, mientras que dropna()
te permite eliminar filas o columnas con datos faltantes. Estas funciones aseguran que tu análisis se base en información completa y precisa.
Para ilustrar, importemos un nuevo conjunto de datos con datos faltantes.
In[*] car_sales_missing = pd.read_csv("./data/car-sales-missing-data.csv") car_sales_missing

Podemos ver claramente que algunos datos de Odometer tienen un valor de NaN
. Usemos fillna()
y rellenemos el valor faltante con la media de Odometer.
In[*] car_sales_missing["Odometer"] = car_sales_missing["Odometer"].fillna(car_sales_missing["Odometer"].mean())

Ahora, Colores, Puertas y Precio son los únicos con NaN
, ubicados en los índices 6, 7, 8 y 9 respectivamente. Vamos a eliminar las filas y columnas que contengan NaN
utilizando dropna()
.
In[*] car_sales_missing = car_sales_missing.dropna() car_sales_missing

Pandas es más que una simple biblioteca; es una puerta de entrada a la manipulación y el análisis efectivos de datos. Con estas funciones esenciales, estás preparado para enfrentar desafíos de datos del mundo real y problemas de aprendizaje automático con confianza. Ya seas un científico de datos, analista o ingeniero de aprendizaje automático, Pandas te capacita para transformar conjuntos de datos desordenados en ideas valiosas. Así que sumérgete, experimenta y desbloquea el potencial ilimitado de Pandas para tus proyectos basados en datos.
Mantente curioso y mantén tu mente analítica estimulada!
Si quieres explorar más sobre Pandas, considera echar un vistazo a su documentación!