Las principales 3 tendencias de arquitectura de datos (y cómo los LLMs las influirán)

The 3 main data architecture trends and how LLMs will influence them.

Foto de Google DeepMind en Unsplash

Publiqué un artículo el año pasado sobre las tendencias en la arquitectura de datos.

Esto fue antes de que los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) se volvieran populares e influyeran en la mayoría de las industrias. Según informes de Gartner, “Los fondos de capital de riesgo han invertido más de $1.7 mil millones en soluciones de IA generativas en los últimos tres años”. Sin duda, los LLMs influirán en la mayoría de las áreas de la arquitectura de datos.

Con eso en mente, exploremos tres tendencias en la arquitectura y cómo los LLMs las influirán.

1. Optimización de costos utilizando Co-Pilotos

Soy un gran fanático de los co-pilotos que ayudan al usuario final a completar eficientemente sus tareas.

Siendo un usuario regular de Grammarly, aprecio cómo ayuda a agilizar el proceso de edición de cualquier forma de contenido escrito. De manera similar, los co-pilotos ocuparán un lugar importante en la mayoría de nuestras tareas, incluida la arquitectura de datos.

La bandeja de entrada diaria de un arquitecto de datos incluirá aspectos del diseño de modelos de datos, establecimiento de estándares e implementación de estructuras de gobierno. Co-pilotos como Microsoft pueden ayudar a completar frases en un correo electrónico y crear anuncios basados en documentos de especificación. De manera similar, un co-piloto para un arquitecto de datos puede completar diagramas de entidad-relación (ERD) basados únicamente en los requisitos del usuario mediante la comprensión de las limitaciones de diseño. Los co-pilotos pueden trabajar junto al arquitecto y agilizar su proceso diario.

No es de sorprender que las empresas comiencen a buscar formas de optimizar sus costos si la productividad comienza a aumentar drásticamente. Se estima que miles, si no millones, de empleos se verán afectados.

Por ejemplo, los consultores de gestión han estado ayudando a las organizaciones a reestructurarse y reducir los costos generales mediante la búsqueda de eficiencias. De manera similar, la implementación de co-pilotos verá una reducción en los recursos humanos debido a una mayor dependencia en la finalización de tareas liderada por la IA. Tareas como escribir documentos de diseño, seguir patrones aprobados para crear diagramas de arquitectura de datos, crear modelos de datos y consultas SQL asociadas, auditar SQLs según normas aprobadas, etc.

¡Los co-pilotos conducirán a eficiencias y ahorros de costos!

2. Análisis impulsado por el contexto

Podemos haber resuelto el problema de almacenamiento con la nube, pero todavía necesitamos resolver el problema del contexto.

Los datos en sí mismos son solo una serie de texto/números; el valor se realiza cuando se agrega contexto. Y el “contexto de datos” es una industria multimillonaria.

El contexto de datos incluye metadatos comerciales o técnicos, necesidades de gobierno o privacidad y requisitos de accesibilidad o seguridad. Aunque se esperaba que esta industria se duplicara para 2028, me pregunto cuánto de ese crecimiento será capitalizado por los LLMs. Como ejemplo, utilizando incrustaciones semánticas y bases de datos vectoriales, las organizaciones podrán contextualizar rápidamente los datos sin necesidad de implementar extensas herramientas de contexto de datos. Si puedo detectar anomalías utilizando incrustaciones, ¿necesito un marco de gobierno exhaustivo? Esto refuerza el punto 1 de mayor optimización de costos debido a los LLMs.

Incluir la IA en los flujos de datos, transformaciones y linajes puede ayudar a construir contexto. Y este contexto puede ser utilizado para responder preguntas de los usuarios finales para fines analíticos o regulatorios. Por ejemplo, ¿este dato contiene información personal? Si es así, filtrelo de casos de uso específicos de análisis.

Imagen del autor

La imagen muestra cómo una capa de contexto captura información de manera similar a como lo haría un catálogo de datos tradicional, excepto que utilizaría el poder de los LLMs y reduciría drásticamente la intervención humana.

El contexto hace que los datos sean valiosos; se puede lograr más rápidamente utilizando LLMs.

3. Lanzamiento de Ecosistemas de Arquitectura de Datos

Estamos cansados de arquitecturas fragmentadas y dispares.

La arquitectura en la que las herramientas de gobierno no se integran con su lago de datos, el sistema fuente no está diseñado teniendo en cuenta la analítica o existen múltiples fuentes de verdad.

El ecosistema necesita reflejar la oferta de empresas de consumo como Apple. Un producto clave con diversos productos componibles de apoyo que son útiles individualmente pero que en conjunto crean un ecosistema asombroso. Como ejemplo, un mercado de productos de datos (iPhone) muestra información del marco de observabilidad de datos (Watch) y está gobernado por un único método de acceso (Face ID). La arquitectura de datos estará en un ecosistema donde la integración ya no será una debilidad. Y esto será un cambio de juego.

Un ecosistema también reducirá el riesgo de redundancia de información en fuentes dispares (como la sincronización de tus mensajes de iMessage en todos tus dispositivos). Ya hay startups que buscan revolucionar esto utilizando conceptos como OBT (One Big Table). Los ecosistemas también implican definiciones de datos; los estándares se establecen una vez y se propagan a través de cada área, reduciendo el costo de replicación.

Por ejemplo, una tabla transaccional de clientes captura información del sistema CRM; por defecto, el CRM está diseñado para capturar los campos obligatorios requeridos para análisis [1]. Una vez transferidos los datos, pasan por una serie de verificaciones de calidad de datos para asegurarse de que sean aptos para el propósito [2]. Una vez transformados, se captura la información de conciliación para asegurar que los datos no se hayan perdido [3]. Antes de su consumo, se clasifican en compartimentos de datos personales y se establecen los controles de gobernanza apropiados [4]. Todos estos procesos son importantes en sí mismos; sin embargo, son significativamente más poderosos cuando los datos finalmente se convierten en productos, puedes visualizar [1] – [4] para ese conjunto de datos y, a su vez, confiar en esos datos.

Conclusión

Como si la Pila de Datos Moderna no tuviera suficiente emoción propia, ahora tenemos la emoción de GenAI con la que lidiar. Será interesante ver cómo se desarrollan estas tendencias en los próximos 12-18 meses. Espero que las empresas que ya hayan invertido en los fundamentos aprovechen estas tendencias y que aquellas que no hayan invertido en calidad de datos o gobernanza se queden rezagadas continuamente.

La solicitud subyacente de todas estas tendencias es datos de calidad. No se puede ser copiloto, agregar contexto o tener una arquitectura de datos efectiva sin datos de calidad. Es una de las cosas más difíciles de lograr, pero a su vez, tiene el mayor retorno de inversión.

¿Quieres aprender todo, desde los impactos de los datos de mala calidad hasta escribir un caso de negocio para una iniciativa de calidad de datos? Echa un vistazo a mi Manual de Calidad de Datos Definitivo:

Manual de Calidad de Datos Definitivo

Descubre el Poder de los Datos: El Manual de Calidad de Datos Definitivo es tu guía completa para lograr la excelencia en datos…

hanzalaqureshi.gumroad.com

Si no estás suscrito a Zepes, considera suscribirte usando mi enlace de referencia. Es más barato que Netflix y objetivamente un uso mucho mejor de tu tiempo. Si usas mi enlace, yo gano una pequeña comisión y tú obtienes acceso a historias ilimitadas en Zepes.