3 Mejores (A menudo mejores) Alternativas a los Histogramas

3 Mejores Alternativas a los Histogramas

Evita el error más peligroso de los histogramas

Imagen realizada por mí con Leonardo AI

Sesgo de agrupamiento, la mayor falla de los histogramas

Los histogramas probablemente sean el primer gráfico que hayas utilizado al embarcarte en tu viaje como científico de datos. Son gráficos intuitivos y fáciles de entender para observar las formas de las distribuciones.

Sin embargo, a medida que avanzas en tu viaje, descubrirás que los histogramas no son tan perfectos. Los histogramas agrupan los valores en intervalos llamados bins, y la altura de cada bin en un histograma indica la cantidad de puntos en ese bin. Considera este ejemplo:

Imagen realizada por el autor

A partir de este histograma, podemos ver de inmediato que la mayoría de las puntuaciones están entre 60 y 80. Veamos qué sucede si cambiamos el número de bins de 10 a 20:

Imagen realizada por el autor

Aún así, la tendencia anterior es evidente. Sigamos cambiando, esta vez de 20 a 40:

Imagen realizada por el autor

Ahora podemos ver que la distribución no es tan suave como parece. Se pueden observar pequeños picos alrededor de 40, 62, 68 y 80 con 40 bins. Por lo tanto, el número de bins podría ocultar información esencial sobre nuestra distribución.

Sin embargo, cambiar demasiado el número de bins puede introducir ruido aleatorio y hacer que parezca un hallazgo importante. Esto nos lleva al sesgo de agrupamiento, que es la mayor falla de los histogramas.

El sesgo de agrupamiento es un error de los histogramas donde se obtienen diferentes representaciones de los mismos datos al cambiar el número de bins para graficar.

En las secciones siguientes, veremos tres alternativas a los histogramas que evitan el sesgo de agrupamiento y ofrecen mejores resultados para comparar distribuciones.

Recordatorio sobre datos discretos y continuos