EDA con Polars Guía paso a paso para usuarios de Pandas (Parte 1)

Guía EDA con Polars para usuarios de Pandas (Parte 1)

Mejora tu análisis de datos con Polars

Foto de Mitul Grover en Unsplash

Introducción

De vez en cuando, aparece una herramienta que altera significativamente la forma en que se realiza el análisis de datos. Creo que Polars es una de esas herramientas, así que en esta serie de publicaciones, profundizaré en esta biblioteca, la compararé con una biblioteca más conocida y establecida, Pandas, y mostraré el flujo de trabajo de análisis utilizando un conjunto de datos de ejemplo.

¿Qué es Polars?

Polars es una biblioteca de DataFrame increíblemente rápida escrita en Rust. Afortunadamente para nosotros (científicos/analistas de datos), tiene un envoltorio de Python muy bien documentado que expone un conjunto completo de funciones para manipular datos y construir tuberías de datos. Estas son las principales ventajas que he visto después de cambiar a Polars:

  • Operaciones de preprocesamiento mucho más rápidas
  • Capacidad para manejar conjuntos de datos más grandes que la memoria RAM
  • Mejor calidad de código debido a la necesidad de estructurar adecuadamente las tuberías de datos

Puedes ver el conjunto completo de beneficios en esta guía del usuario y las comparaciones de velocidad en este benchmark de H20.

Cambiar de Pandas

A primera vista, Pandas y Polars parecen ser bastante similares, por ejemplo, comparten métodos como .read_csv() o .head(), por lo que puedes realizar operaciones exploratorias básicas sin realizar cambios. Pero cuanto más empieces a trabajar con la biblioteca, más notarás las diferencias entre las dos. Desde la sintaxis hasta la forma de pensar, cambiar a Polars no es una tarea fácil. Por eso espero que estas publicaciones te ayuden a comenzar.

Configuración

Para seguir el proyecto, asegúrate de clonar este repositorio de GitHub con el último cuaderno. Los datos utilizados en este proyecto se pueden descargar de Kaggle (CC0: Dominio público). Es un conjunto de datos sobre los videos más populares de YouTube y debería proporcionar suficiente complejidad para esta serie de publicaciones. Además, necesitarás tener instalados Pandas y Polars, lo cual se puede hacer usando pip para ambos paquetes.

Ahora que todo está configurado, ¡vamos a empezar con el proyecto! El objetivo principal aquí es que te familiarices más con Polars, así que asegúrate de seguir o practicar los conceptos en…