Prueba estas 3 funciones menos conocidas de Pandas
3 funciones menos conocidas de Pandas
Mejora tus habilidades de procesamiento de datos utilizando pandas
Si le preguntas a cualquier científico de datos experimentado e ingeniero de aprendizaje automático, ¿qué les lleva más tiempo en su trabajo? Supongo que muchos de ellos dirán: el preprocesamiento de datos, un paso que limpia los datos y los prepara para el análisis secuencial de datos. La razón es simple: basura entra, basura sale. Es decir, si no preparas los datos correctamente, tus “ideas” sobre los datos difícilmente tendrán significado.
Aunque el paso de preprocesamiento de datos puede ser bastante tedioso, Pandas proporciona todas las funciones esenciales que nos permiten completar nuestra tarea de limpieza de datos de manera relativamente fácil. Sin embargo, debido a su versatilidad, no todos los usuarios conocen todas las funcionalidades que ofrece la biblioteca pandas. En este artículo, me gustaría compartir 3 funciones menos conocidas pero muy útiles que puedes probar en tus proyectos de ciencia de datos.
Sin más preámbulos, vamos a sumergirnos.
Nota: Para proporcionar contexto, supongamos que eres responsable de la gestión y análisis de datos de una tienda de ropa. Los ejemplos mostrados a continuación se basan en esta suposición.
1. explode
La primera función que quiero mencionar es explode
. Esta función es útil cuando trabajas con datos en una columna que contiene listas. Cuando usas explode
con esta columna, creas múltiples filas extrayendo cada uno de los elementos de la lista en filas separadas.
- Inteligencia Artificial Responsable en Google Research Equidad en l...
- La IA lleva al compañero de ala robot a los combates aéreos
- El Poder de la Colaboración Cómo los Proyectos de Código Abierto es...
Aquí tienes un ejemplo de código simple para mostrarte cómo usar la función explode
. Supongamos que tienes un marco de datos que almacena información de pedidos. En esta tabla, tienes una columna (es decir, la columna order
) que contiene listas de elementos, como se muestra a continuación:
order_data = { 'customer': ['John', 'Zoe', 'Mike'], 'order': [['Shoes', 'Pants', 'Caps'], ['Jackets', 'Shorts'], ['Ties', 'Hoodies']]}order_df = pd.DataFrame(order_data)order_df
La operación necesaria es dividir cada elemento de la lista en una fila separada para un posterior procesamiento de datos. Sin usar explode
, una solución ingenua podría ser la siguiente. Simplemente iteramos por las filas originales…