Las 5 formas eficientes de encontrar y resolver problemas de datos.
The 5 efficient ways to find and solve data problems.
Descubriendo Anomalías e Inconsistencias Ocultas
Según una encuesta de Gartner, casi el 60% de las organizaciones no miden el costo financiero anual de los datos de baja calidad. Creo que el otro 40% está siendo liberal con la verdad. En mi experiencia, la pérdida debido a la Calidad de Datos rara vez es cuantificada por las organizaciones, aunque les afecta diariamente.
No creo que nuestro estado se deba a una falta de esfuerzo; es más porque no sabemos por dónde empezar. Como los malos hábitos, intentar solucionar todos los problemas a la vez o en un proyecto de un año llevará al fracaso. Necesita un cambio de cultura de responsabilidad, procesos claros y un poco de ayuda tecnológica.
Hoy, nos sumergiremos en cinco formas de encontrar y resolver problemas. ¡Vamos allá!
1. Examinando los datos que provienen de los sistemas de origen
Como la mayoría de las grandes organizaciones, si tiene sistemas de origen antiguos y arcaicos que alimentan su almacén/lago de datos, entonces sabe que los datos de origen son un gran problema.
Si los sistemas son antiguos, puede ser inflexible para aceptar cambios. En ese caso, cuando se reciba o se establezca en su almacén de datos, aplicar una verificación de duplicado y reconciliación asegurará que atrape los problemas antes de que contaminen su patrimonio de datos más amplio.
- Los 4 Mejores Gráficos en Aprendizaje Automático
- Análisis de datos geoespaciales con OSMnx
- Cómo crear hermosos gráficos de barras con Seaborn y Matplotlib (in...
Una vez que se encuentra el problema, puede rechazar esos registros defectuosos para que no fluyan más o manejar el problema en el diseño de su canalización. Mientras sepa que existe el problema de datos, puede alertar a los usuarios, evitando así tomar decisiones equivocadas.
Como ejemplo, cuando reciba un archivo de datos de clientes de una fuente, se recomienda realizar una verificación de integridad. Esto asegurará que los campos esenciales como apellido, fecha de nacimiento y dirección estén completamente poblados. Si faltan datos, es aconsejable descartar esos registros de su cubo de análisis. Alternativamente, puede agregar registros predeterminados para información faltante. Por ejemplo, puede agregar 01/01/1800 como fecha_de_nacimiento predeterminada, ya que esto lo ayudará a identificar registros que carecen de información crítica, facilitando así una mejor toma de decisiones durante el análisis.
2. Solucionando problemas de datos en tablas existentes
Con el tiempo, la calidad de los datos se deteriora debido a la falta de procesos de gobernanza. Algunas claves se reciclaron, se agregó información duplicada o se aplicaron parches, empeorando las cosas.
Un simple perfil de datos puede proporcionar el estado actual de los datos en una tabla dada. Ahora, concéntrese en los atributos/columnas principales que tienen estos problemas. La clave es aislar el problema tanto como sea posible. Una vez que se han determinado los atributos, aplique una solución única. Por ejemplo, si los datos están duplicados, acuerde con los Responsables de Datos cómo llegar a un solo registro. O si los datos son inexactos, como la fecha de nacimiento, las fechas de inicio y finalización, etc., acuerde la sustitución correcta y aplique la corrección.
Una vez aplicada la solución, debe operacionalizar este proceso para evitar una mayor deterioración de la calidad de los datos. Este trabajo de limpieza puede ejecutarse diariamente y corregir los datos mediante la ejecución de declaraciones de actualización. O podría ser una intervención manual de un usuario final que evalúa una tabla de auditoría.
Como ejemplo, si su tabla de datos de clientes tiene registros de clientes duplicados, puede usar una herramienta de calidad de datos para perfilar sus datos. Esto lo ayudará a identificar los duplicados y determinar por qué ocurren. Los duplicados podrían ser causados por la fuente que envía la misma información varias veces, código de canalización de datos deficiente o un proceso empresarial. Una vez que haya identificado los duplicados y su causa raíz, puede fusionar los registros o eliminar el registro redundante. Si no puede resolver la causa raíz, puede configurar un trabajo de limpieza para realizar una verificación de duplicados, coincidir clientes, fusionarlos y eliminar el registro redundante regularmente (gestión de datos maestros).
3. Recreando canalizaciones de datos mal diseñadas
Los problemas de datos a veces pueden derivar de canalizaciones de datos mal diseñadas o ineficientes. Puede mejorar el flujo de datos, las transformaciones y los procesos de integración reevaluando y reconstruyendo estas canalizaciones.
Las canalizaciones mal diseñadas pueden sufrir cuellos de botella que ralentizan el procesamiento oportuno de los datos, o los procesos de transformación e integración de datos complicados pueden introducir errores e inconsistencias. Analizar la canalización es fundamental para aislar el problema y aplicar una solución.
Para los cuellos de botella, se puede rediseñar el pipeline para ejecutarlo en múltiples nodos o para problemas de transformación de datos; se puede desglosar el pipeline en varias etapas (evitando unión redundantes, consultando tablas grandes varias veces, etc.) para reducir la complejidad general.
Por ejemplo, si está experimentando largos tiempos de actualización con su tabla de datos de clientes, evaluar el pipeline desglosando sus componentes será útil. Al inspeccionarlo más de cerca, descubrirá que el diseño del pipeline es complejo debido a su dependencia de múltiples tablas, búsquedas de referencia y generación de una salida de registro maestro. Para mejorar el rendimiento y aislar el problema, se recomienda diseñar y probar cada componente del pipeline. Este proceso puede revelar que las uniones de tablas específicas están tardando más de lo esperado. En este punto, puede examinar la tabla y determinar si realiza una unión cartesiana (cruzada) o se lee varias veces debido al diseño de la unión. Una vez que haya identificado el problema, desglosarlo aún más y eliminar esas uniones o crear otras tablas de escenario para simplificar el pipeline.
4. Aprovechando los cuadros de visualización de datos
La parte difícil de resolver los problemas es encontrarlos en primer lugar. Y escuchará el discurso habitual de los proveedores sobre cómo su tecnología es la siguiente mejor cosa que resolverá los problemas de datos por sí sola. La verdad es que necesitas algún lugar para visualizar los problemas.
Un perfil de datos simple con un panel aún más sencillo que muestre valores atípicos, brechas, inconsistencias y asimetría hará el trabajo. Un punto de datos atípico que indique una transacción inusualmente grande se puede identificar fácilmente en un gráfico de dispersión que muestre los montos de transacción del cliente a lo largo del tiempo.
Un gráfico de líneas que representa el tráfico diario del sitio web y muestra caídas repentinas o períodos de actividad cero podría indicar puntos de datos faltantes o cambios drásticos en los datos.
Por ejemplo, si tiene problemas con datos de clientes incompletos en su tabla, considere utilizar un panel de visualización para resaltar los valores NULL en columnas específicas como la fecha de nacimiento. Un gráfico de barras diario puede rastrear este atributo y detectar cualquier aumento repentino en los datos, como se muestra a continuación.

5. Aprendizaje automático para detección y resolución
A medida que avanza la era de la automatización, el aprendizaje automático se puede utilizar para mejorar la calidad de los datos. Al entrenar modelos con datos históricos, los algoritmos de aprendizaje automático pueden aprender patrones y anomalías, lo que permite la identificación y resolución automatizadas de problemas de datos.
El aprendizaje automático también puede automatizar los procesos de limpieza de datos mediante la identificación y corrección de problemas de datos comunes. Por ejemplo, los modelos pueden completar valores faltantes, corregir errores de formato o estandarizar datos inconsistentes.
Por ejemplo, se puede crear un modelo de detección de anomalías utilizando un conjunto de entrenamiento de datos históricos de la tabla de datos de clientes. El modelo aprende los patrones y características de las fechas de nacimiento normales en función de la distribución y las propiedades estadísticas de los datos de entrenamiento. El modelo establece un umbral de normalidad para la columna “Fecha de nacimiento” utilizando los datos de entrenamiento. Este umbral se basa típicamente en medidas estadísticas como la media, la desviación estándar o el rango de las fechas de nacimiento observadas en el conjunto de datos de entrenamiento. El modelo evalúa nuevos registros de clientes en la fase de detección de anomalías y compara sus fechas de nacimiento con el umbral de normalidad establecido. Si una fecha de nacimiento cae fuera del umbral o se desvía significativamente de los patrones esperados, se marca como una anomalía.
Conclusión
Invertir en la solución de problemas de datos dará dividendos para todos sus casos de uso de análisis y IA aguas abajo. La basura entrante resultará en basura saliente. Estas cinco formas deberían ayudarlo a comenzar su viaje para solucionar problemas de datos.
Sin embargo, si desea aprender cómo implementar todos los aspectos principales de la calidad de datos, consulte mi Manual definitivo de calidad de datos.
Manual definitivo de calidad de datos
Desbloquea el poder de los datos: el Manual definitivo de calidad de datos es tu guía completa para lograr la excelencia de los datos…
hanzalaqureshi.gumroad.com
Si no está suscrito a Zepes, considere suscribirse utilizando mi enlace de referencia. Es más barato que Netflix y objetivamente un uso mucho mejor de su tiempo. Si utiliza mi enlace, gano una pequeña comisión y usted obtiene acceso a historias ilimitadas en Zepes, ganar-ganar.