Paisaje de Ingeniería de Datos en el Mundo Impulsado por la Inteligencia Artificial
Data Engineering Landscape in the AI-Driven World
La IA generativa acaba de empezar a capturar la imaginación de los ingenieros de datos, por lo que el impacto hasta ahora ha sido sólo una fracción de lo que será dentro de uno o dos años.
Uno de los mayores impactos ha sido la adopción más amplia de la “ingeniería de prompts”, esencialmente la habilidad de pedirle a la IA que asista en tareas relacionadas con la codificación. He visto a Andrej Karpathy bromear en Twitter, “El lenguaje de programación más caliente es el inglés”.
La IA generativa también ha iniciado una fiebre del oro con docenas de empresas de inicio compitiendo para desarrollar una IA que pueda hacer consultas al almacén de datos y devolver una respuesta inteligente a las preguntas ad hoc que hacen los consumidores de datos en su lenguaje natural. “Esto simplificaría radicalmente el proceso de análisis de autoservicio y democratizaría aún más los datos, pero será difícil de resolver más allá de la búsqueda básica de métricas, dada la complejidad de las tuberías de datos para análisis más avanzados”, comentó el CTO de Monte Carlo, Shane Murray.
“Cuando evalúo a los candidatos de ingeniería de datos para un rol, busco su historial de impacto y de comenzar a trabajar”, mencionó Murray. Eso podría ser en su ocupación principal o contribuyendo a proyectos de código abierto. En cualquier caso, no se trata de que estuviste allí, sino ¿qué impacto tuviste?
- Revolutionizando el Análisis de Datos con PandasGUI
- ChatGPT para Hoja de Trucos de Entrevista de Ciencia de Datos
- Geocodificación para Científicos de Datos
Si no te gusta el cambio, la ingeniería de datos no es para ti. “Poco en este espacio ha escapado a la reinversión”, comentó Murray. Es claro que el proceso de construir y mantener pipelines de datos se volverá mucho más fácil, así como la capacidad para que los consumidores de datos accedan y manipulen los datos.
Sin embargo, lo que no ha cambiado es el ciclo de vida de los datos. “Se emite, se transforma para un uso y luego se archiva”, señaló Murray. “Mientras que la infraestructura subyacente puede cambiar y la automatización desplazará el tiempo y la atención hacia la derecha o la izquierda, los ingenieros de datos humanos seguirán jugando un papel crucial en la extracción de valor de los datos, ya sea arquitectando sistemas de datos escalables y confiables o como ingenieros especialistas dentro de un dominio elegido de datos.”
Los equipos de plataforma de datos ofrecen oportunidades
He encontrado que los equipos de plataforma de datos, que ahora son bastante comunes en equipos de datos de varios tamaños, son excelentes lugares para que los ingenieros de datos comiencen a trabajar.
Murray explicó además: “Aquí, puedes especializarte en un dominio específico de datos que sea central para las operaciones comerciales, como los datos de los clientes o los datos de productos/comportamiento. En este rol, debes tratar de comprender el problema de extremo a extremo, desde la fuente hasta el caso de uso analítico, ya que te convertirás en un activo para el equipo y el negocio”.
“Alternativamente, uno podría especializarse en una capacidad específica de la plataforma de datos, como la ingeniería de confiabilidad, la inteligencia empresarial, la experimentación o la ingeniería de características”, especificó Murray. “Estos tipos de roles suelen dar una comprensión más amplia pero menos profunda de cada caso de uso empresarial, pero pueden ser un salto más fácil desde un rol de ingeniería de software hacia los datos”.
Otro camino que veo cada vez más para los ingenieros de datos es el rol de gerente de productos de datos, dijo Murray. Si uno está desarrollando habilidades de ingeniería de datos pero encuentra que está más impulsado a hablar con los usuarios finales, articular los problemas a resolver y destilar la visión y la hoja de ruta para el equipo, entonces un rol de gestión de productos puede ser una perspectiva futura.
Los equipos de datos están comenzando a invertir en este conjunto de habilidades a medida que avanzamos hacia el tratamiento de “los datos como un producto”, que van desde paneles de control críticos y herramientas de soporte de decisiones hasta aplicaciones de aprendizaje automático que son fundamentales para las operaciones comerciales o la experiencia del cliente. “Los grandes gerentes de productos de datos tendrán una comprensión de cómo construir un producto de datos confiable y escalable, pero también aplicarán el pensamiento del producto para impulsar la visión, la hoja de ruta y la adopción”, afirmó Murray.
La pila de datos moderna
La pila de datos moderna está rápidamente convirtiéndose en la pila tecnológica dominante y de tendencia en el campo de la ingeniería de datos, según Murray. Esta pila tiene un almacén de datos o lago basado en la nube en el centro y soluciones complementarias basadas en la nube para la ingestión, transformación, orquestación, visualización y observabilidad de datos.
Es ventajosa porque tiene un tiempo rápido para el valor, es fundamentalmente más fácil de usar que la generación anterior de herramientas, es extensible a una amplia gama de casos de uso analíticos y de aprendizaje automático, y puede escalar al tamaño y la complejidad de los datos gestionados en el mundo actual.
“Las soluciones exactas variarán según el tamaño de la organización y los casos de uso de datos específicos, pero en general la pila de datos moderna más común es Snowflake, Fivetran, dbt, Airflow, Looker y Monte Carlo. También puede haber Atlan e Immuta para abordar el catálogo de datos y el acceso, respectivamente”, explicó Murray. “Las organizaciones más grandes o aquellas con más casos de uso de aprendizaje automático suelen tener pilas de datos que utilizan más Databricks y Spark”.
Una posible interrupción
“La era de la pila de datos moderna iniciada por Snowflake y Databricks aún no ha alcanzado un punto de consolidación, y ya estamos viendo ideas que pueden interrumpir aún más el status quo de las tuberías de datos modernas”, reflexionó Murray. “En el horizonte cercano se encuentran la adopción más generalizada de datos en streaming, cero-ETL, intercambio de datos y una capa unificada de métricas”. Cero-ETL e intercambio de datos son particularmente interesantes ya que tienen el potencial de simplificar la complejidad de las tuberías de datos modernas, las cuales tienen múltiples puntos de integración y, por lo tanto, fallas.
Paisaje laboral tecnológico
Se prevé que el mercado laboral de la industria tecnológica experimentará un cambio significativo en 2023, impulsado por el crecimiento del análisis de big data. Según el análisis de Dice Media, este cambio ocurrirá a medida que se espera que el mercado mundial de análisis de big data crezca a una tasa impresionante del 30,7 por ciento, alcanzando un valor proyectado de $346,24 billones para 2030. Se espera que este crecimiento cree numerosas oportunidades para profesionales capacitados en el campo, como ingenieros de datos, analistas de negocios y analistas de datos.
“Creo firmemente que los trabajos de ingeniería de datos no se centrarán únicamente en escribir código, sino que implicarán una mayor comunicación con los stakeholders del negocio y el diseño de sistemas de extremo a extremo”, comentó Deexith Reddy, un experimentado ingeniero de datos y entusiasta del open-source. “Por lo tanto, para garantizar la seguridad laboral, uno debe centrarse tanto en la amplitud del análisis de datos como en la profundidad de la ingeniería de datos”.
La IA generativa es probable que haga que el campo de la ingeniería de datos sea más competitivo. Sin embargo, durante nuestra llamada, Reddy también enfatizó que contribuir a proyectos de open-source siempre será beneficioso para construir un portafolio sólido, teniendo en cuenta los avances tecnológicos y los recientes avances en IA.
Reddy arrojó más luz sobre el papel crítico que juegan los ingenieros de datos en la mejora de las capacidades de una organización mediante la utilización de tecnologías open-source. Por ejemplo, ha habido una adopción generalizada de tecnologías open-source como Apache Spark, Apache Kafka y Elasticsearch entre los ingenieros de datos, así como Kubernetes entre los científicos de datos para prácticas de ciencia de datos. Estas tecnologías OSS ayudan a cumplir con los requisitos computacionales para cargas de trabajo de aprendizaje profundo y aprendizaje automático, así como flujos de trabajo de MLOps.
Las empresas a menudo identifican y reclutan a los principales contribuyentes de proyectos open-source como estos, fomentando un entorno que valora y alienta las contribuciones open-source. Este enfoque ayuda a retener a los ingenieros de datos capacitados y permite que las organizaciones se beneficien de su experiencia. Saqib Jan es un escritor y analista de tecnología con una pasión por la ciencia de datos, la automatización y la computación en la nube.