Capas de calidad de datos
Quality data layers
Dónde y cómo abordar problemas con tus datos
Con el reciente aumento del interés en la IA generativa y los LLMs, la calidad de los datos ha vuelto a recibir un nuevo impulso. No es que el espacio necesitara mucha ayuda: empresas como Monte Carlo, Soda, Bigeye, Sifflet, Great Expectations y dbt Labs han estado desarrollando una variedad de soluciones, desde propietarias hasta de código abierto. Si bien algunas de estas soluciones son competidores directos, no todas abordan los mismos problemas. Por ejemplo, definir una prueba explícita de dbt para asegurarse de que una columna contenga valores únicos es muy diferente de la detección de anomalías en las métricas (por ejemplo, tu proceso dim_orders generó 500,000 registros un día, cuando normalmente son más bien 50,000). Los datos pueden fallar de formas espectaculares y variadas.
Probablemente hayas oído hablar de las dimensiones de calidad de los datos; personalmente me gusta la perspectiva de Richard Farnworth¹, pero una búsqueda rápida en Google arrojará docenas de opiniones diferentes. En el fondo, sin embargo, la idea es que los datos pueden ser “correctos” en un aspecto pero incorrectos en otros. Si tus datos son correctos pero llegan tarde, ¿tienen valor? ¿Qué pasa si los números son objetivamente incorrectos pero son consistentes²? Este es un aspecto importante de la gestión de productos de datos y de identificar las prioridades de tus partes interesadas.
Se pone mucho énfasis en cómo los datos están malformados, faltan, llegan tarde, están incompletos, etc., y se presta menos atención a las causas fundamentales de los problemas de calidad de los datos. Pasamos una cantidad desmesurada de tiempo probando y observando los propios datos en lugar de buscar mejoras en los sistemas que producen, transforman y utilizan esos datos. Quiero explorar estas “capas” de problemas de calidad de datos, soluciones y los equipos que deberían participar en la resolución de problemas relacionados con ellos.
Capa 1: Producción de Datos
Todos los datos provienen de algún lugar, y la fuente es frecuentemente la causa principal de los problemas de calidad de datos. Siguiendo el principio de basura entra, basura sale, no puedes crear productos de datos útiles a partir de datos de sistemas de origen deficientes.
Esta capa tiene tres fuentes fundamentales de problemas de calidad de datos: cambios en el esquema, cambios semánticos y disponibilidad y confiabilidad del sistema. Todos son extremadamente importantes, pero conducen a fallas diferentes en la calidad de los datos. Además, requieren soluciones diferentes y con frecuencia, diferentes equipos deben participar para…