Cómo Extraer y Etiquetar Automáticamente Puntos de Datos en un Gráfico de KDE de Seaborn
Extracción y etiquetado automático de puntos de datos en un gráfico KDE de Seaborn

Un gráfico de Estimación de Densidad del Núcleo (KDE por sus siglas en inglés) es un método, similar a un histograma, para visualizar la distribución de puntos de datos. Mientras que un histograma agrupa y cuenta observaciones, un gráfico KDE suaviza las observaciones utilizando un núcleo gaussiano. Como alternativa a los histogramas, los KDE son posiblemente más atractivos, más fáciles de comparar en la misma figura y mejores para resaltar patrones en las distribuciones de datos.

Al anotar medidas estadísticas como la media, la mediana o la moda en los KDE, estos se vuelven más significativos. Aunque agregar líneas para estas medidas es fácil, hacer que se vean limpias y despejadas no lo es.

En este proyecto rápido de éxito en Ciencia de Datos, utilizaremos los conjuntos de datos del Censo de Estados Unidos y del Congreso para anotar programáticamente múltiples gráficos KDE con los valores de la mediana. Este enfoque garantizará que la anotación del gráfico se ajuste automáticamente a las actualizaciones de los conjuntos de datos.
Para más detalles sobre los gráficos KDE, consulta mi artículo anterior aquí.
Los Conjuntos de Datos
Debido a las leyes de Edad de Candidatura en Estados Unidos, los cumpleaños de los miembros del Congreso son parte del registro público. Para mayor comodidad, ya he compilado un archivo CSV con los nombres de los miembros actuales del Congreso, junto con sus cumpleaños, rama de gobierno y partido, y lo he guardado en este Gist.
- Construyendo una canalización de datos de transmisión de Formula 1 ...
- Mejores herramientas de IA para la gestión de proyectos (septiembre...
- Un nuevo estudio de IA revela que un modelo de aprendizaje automáti...
Para la población de Estados Unidos, utilizaremos la tabla de Población Civil Postcensal Mensual de la Oficina del Censo para julio de 2023. Al igual que el conjunto de datos anterior, esta es información pública que he guardado en un archivo CSV en este Gist.
Instalando Librerías
Para este proyecto, necesitaremos instalar seaborn para trazar gráficos y pandas para análisis de datos. Puedes instalar estas librerías de la siguiente manera:
Con conda: conda install pandas seaborn
Con pip: pip install pandas seaborn