Cómo Extraer y Etiquetar Automáticamente Puntos de Datos en un Gráfico de KDE de Seaborn

Extracción y etiquetado automático de puntos de datos en un gráfico KDE de Seaborn

DALL·E 2023 - Una pintura impresionista de una cadena montañosa ondulante con círculos de colores brillantes a lo largo de la línea de crestas (todas las imágenes restantes por el autor).

Un gráfico de Estimación de Densidad del Núcleo (KDE por sus siglas en inglés) es un método, similar a un histograma, para visualizar la distribución de puntos de datos. Mientras que un histograma agrupa y cuenta observaciones, un gráfico KDE suaviza las observaciones utilizando un núcleo gaussiano. Como alternativa a los histogramas, los KDE son posiblemente más atractivos, más fáciles de comparar en la misma figura y mejores para resaltar patrones en las distribuciones de datos.

Un histograma versus un gráfico KDE

Al anotar medidas estadísticas como la media, la mediana o la moda en los KDE, estos se vuelven más significativos. Aunque agregar líneas para estas medidas es fácil, hacer que se vean limpias y despejadas no lo es.

Líneas de marcadores agregadas con el método fácil (izquierda) vs. con el método más difícil pero más atractivo (derecha)

En este proyecto rápido de éxito en Ciencia de Datos, utilizaremos los conjuntos de datos del Censo de Estados Unidos y del Congreso para anotar programáticamente múltiples gráficos KDE con los valores de la mediana. Este enfoque garantizará que la anotación del gráfico se ajuste automáticamente a las actualizaciones de los conjuntos de datos.

Para más detalles sobre los gráficos KDE, consulta mi artículo anterior aquí.

Los Conjuntos de Datos

Debido a las leyes de Edad de Candidatura en Estados Unidos, los cumpleaños de los miembros del Congreso son parte del registro público. Para mayor comodidad, ya he compilado un archivo CSV con los nombres de los miembros actuales del Congreso, junto con sus cumpleaños, rama de gobierno y partido, y lo he guardado en este Gist.

Para la población de Estados Unidos, utilizaremos la tabla de Población Civil Postcensal Mensual de la Oficina del Censo para julio de 2023. Al igual que el conjunto de datos anterior, esta es información pública que he guardado en un archivo CSV en este Gist.

Instalando Librerías

Para este proyecto, necesitaremos instalar seaborn para trazar gráficos y pandas para análisis de datos. Puedes instalar estas librerías de la siguiente manera:

Con conda: conda install pandas seaborn

Con pip: pip install pandas seaborn

El Código