Análisis exploratorio de datos Descifrando la historia dentro de tu conjunto de datos
Análisis exploratorio de datos Descifrando la historia en tus datos.
El arte secreto de explorar datos: comprender, limpiar y revelar las ideas ocultas dentro de tu conjunto de datos
Como entusiastas de los datos, explorar un nuevo conjunto de datos es un emocionante desafío. Nos permite obtener una comprensión más profunda de los datos y sentar las bases para un análisis exitoso. Tener una buena sensación de un nuevo conjunto de datos no siempre es fácil y lleva tiempo. Sin embargo, un buen y exhaustivo análisis exploratorio de datos (EDA, por sus siglas en inglés) puede ayudar mucho a comprender tu conjunto de datos y tener una idea de cómo se relacionan las cosas y qué se debe hacer para procesar adecuadamente tu conjunto de datos.
De hecho, probablemente pasarás el 80% de tu tiempo en la preparación y exploración de datos y solo el 20% en el modelado de datos real. Para otros tipos de análisis, la exploración puede llevar aún más tiempo.
**El qué.
El Análisis Exploratorio de Datos, simplemente dicho, se refiere al arte de explorar datos. Es el proceso de investigar datos desde diferentes ángulos para mejorar tu comprensión, explorar patrones, establecer relaciones entre variables y, si es necesario, mejorar los propios datos
Es como salir en una cita “a ciegas” con tu conjunto de datos, sentado frente a esta enigmática colección de números y textos, anhelando entenderla antes de embarcarte en una relación seria. Al igual que en una cita a ciegas, el EDA te permite descubrir los aspectos ocultos de tu conjunto de datos. Observas patrones, detectas valores atípicos y exploras los matices antes de tomar cualquier compromiso importante. Se trata de familiarizarse y generar confianza con los números, asegurándote de estar en terreno sólido antes de sacar conclusiones.
Todos hemos estado ahí; consciente o inconscientemente, sumergiéndonos en herramientas estadísticas o revisando informes, todos hemos explorado algún tipo de datos en algún momento.
**El por qué.
Como analistas y científicos de datos, se supone que debemos entender mejor los datos. Debemos convertirnos en expertos cuando se trata de comprender e interpretar los datos. Ya sea modelos de aprendizaje automático, marcos de experimentación o análisis simples, el resultado es tan bueno como los datos en los que se basa.
¡Recuerda, basura entra, basura sale!
El EDA capacita a los analistas y científicos de datos para explorar, comprender y obtener ideas significativas de los datos. Justo cuando crees que lo tienes todo resuelto, el conjunto de datos te sorprende. Te encuentras con valores faltantes, inconsistencias y datos desordenados. Es como descubrir que tu cita tiene una mascota secreta en forma de un caimán o una colección de figuritas de unicornios. El análisis exploratorio de datos te brinda las herramientas para limpiar el desorden y dar sentido a todo.
— Es como darle a tu conjunto de datos un cambio de imagen, transformándolo de un desorden desaliñado a un compañero deslumbrante.
Al final, el análisis exploratorio de datos se trata de conocer tus datos en un nivel más profundo, divertirte en el proceso y construir una base sólida para un análisis posterior. Así que ponte tu sombrero de detective y embarcate en esta emocionante aventura con tu conjunto de datos. Quién sabe, ¡tal vez encuentres un tesoro escondido o incluso el amor verdadero!
**El cómo.
El Análisis Exploratorio de Datos, como su nombre lo indica, es un análisis para explorar los datos. Consta de varios componentes; no todos son esenciales todo el tiempo, ni todos tienen la misma importancia. A continuación, enumero algunos componentes basados en mi experiencia. Ten en cuenta que esta lista no es exhaustiva, pero sí es una guía.
1. Comprender el panorama.
No sabes lo que no sabes, ¡pero puedes explorar! Lo primero y más importante es familiarizarte con los datos, observar las entradas de datos y echar un vistazo a los valores de las columnas. Cuántas filas y columnas tienes.
- un conjunto de datos de una tienda minorista podría decirte que el señor X visitó la tienda n° 2000 el 01 de agosto de 2023 y compró una lata de Coca-Cola y un paquete de papas fritas Walker
- un conjunto de datos de redes sociales podría decirte que la señora Y inició sesión en el sitio web de redes sociales a las 09:00 am del 3 de junio, navegó por las secciones A, B y C, buscó a su amigo el señor A y luego cerró la sesión después de 20 minutos.
Es beneficioso tener el contexto empresarial de los datos que tienes, conocer la fuente y el mecanismo de recopilación de datos; por ejemplo, datos de encuestas vs datos recopilados digitalmente, etc.).
2. Haz doble clic en las variables
Las variables son la lengua que habla un conjunto de datos, te están hablando continuamente. Solo necesitas hacer las preguntas correctas y escuchar atentamente.
→ Preguntas para hacer: – ¿Qué significan/representan las variables? – ¿Son las variables continuas o categóricas? .. ¿Algún orden inherente? – ¿Cuáles son los valores posibles que pueden tomar?
→ ACCIÓN:
- Para variables continuas – verifica las distribuciones utilizando histogramas, diagramas de caja y estudia cuidadosamente la media, la mediana, las desviaciones estándar, etc.
- Para variables categóricas/ordinales – averigua sus valores únicos y realiza una tabla de frecuencias para verificar los más/menos frecuentes.
Puede que no entiendas todas las variables, etiquetas y valores, pero intenta obtener la mayor cantidad de información posible
3. Busca patrones/relaciones en tus datos
A través del AED, puedes descubrir patrones, tendencias y relaciones dentro de los datos.
→ Preguntas para hacer: – ¿Tienes alguna suposición/hipótesis previa sobre las relaciones entre variables? – ¿Algún motivo comercial para que algunas variables estén relacionadas entre sí? – ¿Las variables siguen alguna distribución en particular?
Las técnicas de visualización de datos, los resúmenes y el análisis de correlación ayudan a revelar patrones ocultos que pueden no ser evidentes a primera vista. Comprender estos patrones puede proporcionar información valiosa para la toma de decisiones o la generación de hipótesis.
→ ACCIÓN: Piensa en un análisis visual bi-variado.
- En caso de variables continuas – utiliza gráficos de dispersión, crea una matriz de correlación/mapas de calor, etc.
- Una mezcla de variables continuas y ordinales/categóricas – considera trazar gráficos de barras o diagramas de pastel y crear tablas de contingencia para visualizar la co-ocurrencia.
El AED te permite validar suposiciones estadísticas, como la normalidad, linealidad o independencia, para el análisis o el modelado de datos.
4. Detectar anomalías.
¡Aquí tienes la oportunidad de convertirte en Sherlock Holmes con tus datos y buscar cualquier cosa fuera de lo normal! Pregúntate a ti mismo:
– ¿Hay entradas duplicadas en el conjunto de datos?
Las duplicaciones son entradas que representan el mismo punto de muestra múltiples veces. Las duplicaciones no son útiles en la mayoría de los casos, ya que no proporcionan información adicional. Podrían ser el resultado de un error y pueden afectar la media, la mediana y otras estadísticas. → Verifica con las partes interesadas y elimina esos errores de tus datos.
– ¿Errores de etiquetado para variables categóricas?
Busca valores únicos para variables categóricas y crea un gráfico de frecuencias. ¿Busca errores de ortografía y etiquetas que puedan representar cosas similares?
– ¿Algunas variables tienen valores faltantes?
Esto puede ocurrir tanto en variables numéricas como categóricas. Verifica si
- ¿Hay filas que tienen valores faltantes para muchas variables (columnas)? Esto significa que hay puntos de datos que tienen espacios en blanco en la mayoría de las columnas → no son muy útiles, es posible que debamos eliminarlos.
- ¿Hay variables (o columnas) que tienen valores faltantes en varias filas? Esto significa que hay variables que no tienen ningún valor/etiqueta en la mayoría de los puntos de datos → no pueden aportar mucho a nuestra comprensión, es posible que debamos eliminarlas.
→ ACCIÓN:
– Calcula la proporción de valores NULL o faltantes para todas las variables. Las variables con más del 15%-20% deberían hacerte sospechar.
– Filtra las filas con valores faltantes para una columna y verifica cómo se ven el resto de las columnas. ¿Sucede que la mayoría de las columnas tienen valores faltantes juntos? ¿Hay algún patrón?
– ¿Hay valores atípicos en mi conjunto de datos?
La detección de valores atípicos consiste en identificar puntos de datos que no se ajustan a la norma. Puedes ver valores muy altos o extremadamente bajos para ciertas variables numéricas, o una frecuencia alta/baja para variables de clase categóricas.
- Lo que parece un valor atípico puede ser un error en los datos. Mientras que los valores atípicos son puntos de datos que son inusuales para una distribución de características dada, las entradas no deseadas o los errores de registro son muestras que no deberían estar allí en primer lugar.
- Lo que parece un valor atípico puede ser simplemente un valor atípico. En otros casos, es posible que tengamos puntos de datos con valores extremos y un razonamiento perfectamente válido detrás de ellos.
→ ACCIÓN:
Estudie los histogramas, diagramas de dispersión y gráficos de barras de frecuencia para comprender si hay algunos puntos de datos que están más alejados del resto. Piense en: – ¿Pueden ser verdaderos y tomar estos valores extremos? – ¿Hay un razonamiento o justificación empresarial para estas extremidades? – ¿Añadirían valor a su análisis en una etapa posterior?
5. Limpieza de datos.
La limpieza de datos se refiere al proceso de eliminar variables y valores no deseados de su conjunto de datos y deshacerse de cualquier irregularidad en él. Estas anomalías pueden sesgar desproporcionadamente los datos y, por lo tanto, afectar adversamente los resultados de nuestro análisis a partir de este conjunto de datos.
Recuerde: Basura entra, basura sale
– Corregir el curso de sus datos.
- Elimine las entradas duplicadas si encuentra alguna, los valores faltantes y los valores atípicos, que no agregan valor a su conjunto de datos. Deshágase de filas/columnas innecesarias.
- Corrija cualquier error de ortografía o etiquetado que observe en los datos.
- También es necesario eliminar cualquier error de datos que no agregue valor a los datos.
– Cap Outliers o déjalos estar.
- En algunos escenarios de modelado de datos, es posible que debamos limitar los valores atípicos en ambos extremos. La limitación se suele realizar en el percentil 99/95 para el extremo superior o en el percentil 1/5 para la limitación del extremo inferior.
– Tratar valores faltantes.
Generalmente eliminamos los puntos de datos (filas) con muchos valores faltantes en las variables. De manera similar, eliminamos las variables (columnas) que tienen valores faltantes en muchos puntos de datos.
Si hay algunos valores faltantes, podemos tratar de completar esas brechas o simplemente dejarlas como están.
- Para variables continuas con valores faltantes, podemos completarlos utilizando valores medios o medianos (quizás en un estrato particular)
- Para valores categóricos faltantes, podemos asignar la clase más utilizada o crear una nueva clase de ‘no definido’.
– Enriquecimiento de datos.
Según las necesidades del análisis futuro, puede agregar más características (variables) a su conjunto de datos, como (sin restricciones)
- Crear variables binarias que indiquen la presencia o ausencia de algo.
- Crear etiquetas/clases adicionales utilizando cláusulas SI-ENTONCES-SI NO.
- Escalar o codificar sus variables según sus necesidades futuras de análisis.
- Combinar dos o más variables: utilizar una variedad de funciones matemáticas como suma, diferencia, promedio, logaritmo y muchas otras transformaciones.
Resumen
El EDA permite a los científicos de datos descubrir información valiosa, abordar problemas de calidad de datos y establecer una base sólida para un análisis y modelado posterior. Asegura que los resultados del análisis de datos sean confiables, precisos e impactantes.
Componentes clave de EDA:
- Comprender la fuente y el “significado” de sus datos.
- Conocer todas las variables, sus distribuciones, etiquetas/clases de entrada y salida.
- Buscar patrones/relaciones entre variables para validar cualquier hipótesis o suposiciones previas.
- Detectar cualquier anomalía: errores de datos, valores atípicos, valores faltantes.
- Limpieza de datos: eliminar o corregir errores/anomalías de datos, limitar valores atípicos, completar valores faltantes (si es necesario), escalar/transformar variables existentes y crear otras derivadas adicionales que enriquezcan su conjunto de datos para el análisis posterior.