5 formas en que la IA generativa cambia la forma en que las empresas abordan los datos (y en qué no)

5 formas en que la IA generativa cambia la forma en que las empresas abordan los datos (y en qué no)' can be condensed to '5 formas en que la IA generativa impacta en el enfoque empresarial de los datos

Expertos de capital de riesgo, Snowflake y más discuten cómo la IA generativa beneficiará a los equipos de datos y los desafíos que deben resolver.

Imagen cortesía del autor. Generada por DiffusionBee.

La IA generativa no es un concepto nuevo. Se ha estudiado durante décadas y se ha aplicado en capacidades limitadas. Eso fue hasta que ChatGPT sorprendió y dejó boquiabierto a nuestra conciencia colectiva a fines de 2022.

Sin embargo, generar una receta para lasaña es un proceso completamente diferente a infundir capacidades de IA generativa en un negocio o integrar modelos de lenguaje grandes (LLM) en flujos de trabajo de ingeniería de datos.

El cambio está llegando, pero ¿cuáles serán los impactos en la forma en que las organizaciones abordan los datos y qué obstáculos aún deben superarse? Para responder a eso, convocamos a:

  • Kristen Werner, Directora de Ciencia e Ingeniería de Datos, Snowflake
  • Tomasz Tunguz, Socio General, Theory Ventures
  • Lior Gavish, cofundador y CTO, Monte Carlo

Colectivamente, su experiencia incluye la creación de nuevas tecnologías, la financiación de una gran cantidad de startups de GenAI y ayudar a miles de clientes a aprovechar la IA para obtener más valor de sus datos.

Aunque sus estimaciones variaron del 50 al 20% en el espectro de “cuánto de la IA generativa es hype”, todos los panelistas coincidieron en que esta tecnología transformadora tenía aplicaciones prácticas hoy en día y un tremendo potencial. Así que veamos algunos de los temas recurrentes.

En este artículo:

5 beneficios de la IA generativa

  • #1- Aumento de la accesibilidad a los datos
  • #2- Extracción de información de los datos y análisis gráfico
  • #3- Poner a trabajar los datos no estructurados
  • #4- Acelerar el desarrollo de la canalización de datos
  • #5- Reducción de costos (y tal vez generación de ingresos)

5 desafíos de la IA generativa

  • #1- Alucinaciones, confiabilidad y confianza
  • #2- Resolver sus propios problemas
  • #3- Seguridad y privacidad
  • #4- Estamos en una etapa temprana en infraestructura y soluciones
  • #5- Cambios en las habilidades requeridas

5 beneficios de la IA generativa

Cuando se trata de IA generativa, es difícil separar los hechos de la ficción y la aplicación práctica del aceite de serpiente. Aquí hay algunas formas actuales y probables en las que la IA generativa está aportando valor a las organizaciones y a los equipos de datos tanto hoy como en un futuro cercano.

#1- Aumento de la accesibilidad a los datos

¿La fruta más fácil de alcanzar para la IA generativa dentro del mundo de los datos? La capacidad para que los usuarios no técnicos ingresen consultas en lenguaje natural que puedan generar consultas SQL para recuperar puntos de datos específicos.

“El texto a SQL es omnipresente”, dijo Tomasz. “OpenAI lo está desarrollando. Lo tienes en la capa de BI, lo tienes en las herramientas de exploración de datos. Creo que eso es muy fácil de alcanzar”.

La automatización de consultas SQL puede democratizar radicalmente el acceso a los datos para los usuarios no técnicos y, por lo tanto, acelerar el tiempo de obtención de valor.

“Creo que la IA abre la posibilidad de que las personas que no son expertas en datos… puedan acceder realmente a datos significativos, ideas significativas”, dijo Lior. “E incluso para las personas que conocen SQL, va a acelerar ese proceso. Así que vamos a poner los datos en manos de más personas”.

Plataformas de datos como Snowflake están invirtiendo en cómo la IA generativa no solo puede generar consultas SQL, sino también reimaginar la experiencia de usuario-datos. Kristen habló sobre cómo una de las características más experimentales de la nube de datos, actualmente en desarrollo, tiene como objetivo vincular LLMs, consultas SQL y visualización de datos.

“La cadena de valor puede llevar mucho tiempo para generar los datos correctos y luego obtener una experiencia de usuario final satisfactoria. ¿Es una notificación push? ¿Es un panel de control? ¿Es un informe de BI?”, dijo. “Estoy realmente emocionada por la capacidad de la IA para agilizar algunos de estos pasos y permitir a los usuarios finales llegar más verticalmente a la pila más rápidamente con una [mejor] experiencia final… No es algo que tengamos hoy, pero creo que llegará a serlo”.

#2- Extrayendo información de datos y análisis de gráficos

La creación de gráficos y el análisis pronto podrían ser realizados por Gen AI. Foto de Chris Liverani en Unsplash

La inteligencia artificial generativa puede tener un impacto más allá de simplemente consultar y visualizar datos, al dar el siguiente paso y extraer información de ellos. De hecho, ese es un proceso que ya utiliza Tomasz.

“ChartGPT es un producto especializado enfocado únicamente en la creación de gráficos a partir de datos. Y si alguien ha jugado con el [intérprete de código de ChatGPT], es bastante increíble”, dijo. “Puedes tomar una hoja de cálculo de Excel de una empresa cotizada en bolsa, cargarla en el intérprete de código y pedirle que resuma el estado de ‘Google después de las ganancias’ y producirá información bastante significativa”.

#3- Poner a trabajar datos no estructurados

Todos nuestros panelistas expertos estaban entusiasmados con el potencial de la inteligencia artificial generativa para permitir que los equipos y organizaciones de datos extraigan valor de fuentes no relacionales.

“Hay mucha información no estructurada en el mundo. Texto e imágenes que requieren habilidades y herramientas especializadas para analizarlo que [tienen limitaciones de recursos]”, dijo Lior. “Puedes imaginar que Gen AI extrae estructura de esos conjuntos de datos textuales e imágenes y los pone a trabajar de la misma manera en que hemos podido poner a trabajar los datos relacionales”.

Tomasz se refirió a este proceso como “fracturación de información”.

“En Theory [su empresa de capital de riesgo], tenemos alrededor de 10,000 documentos que hemos recopilado sobre startups…. Y hace aproximadamente dos semanas, produjimos nuestro primer resumen de memorándum de inversión sobre un espacio llamado generative RPA. Y todo se produjo simplemente fracturando esta información con muchos archivos de texto”, dijo.

Snowflake y otras plataformas de datos están lanzando funciones que acelerarán la capacidad de los equipos de datos para hacer esto realidad.

“Document AI es un proyecto en crecimiento como resultado de nuestra adquisición de Applica y ese caso de uso se trata realmente de la lectura e interpretación de documentos”, dijo. “Esto podría ser para recursos humanos, para contratos de adquisiciones y cosas por el estilo…. Los clientes con los que me encuentro tienen una gran cantidad de [datos] y quieren obtener valor de ello”.

Document AI se presentó en la última Cumbre de Snowflake que se muestra arriba. Foto tomada por el autor.

#4- Acelerando el desarrollo de tuberías de datos

La inteligencia artificial generativa puede o no revolucionar la arquitectura de las tuberías de datos, pero ciertamente permitirá a los ingenieros de datos construirlas e implementarlas más rápidamente.

“Gen AI ya es muy bueno escribiendo SQL, Python, Scala o cualquier cosa en la que estés escribiendo tus tuberías. Y veremos a Gen AI hacer que los ingenieros sean más efectivos y rápidos en la construcción de esas soluciones”, dijo Lior. “No estoy seguro de que sea un 10 veces más efectivo… pero definitivamente es un 20% o 30% más efectivo y eso es significativo para muchos equipos”.

Sin embargo, Lior señaló rápidamente que es poco probable que la modelación de datos y la comprensión de cómo encajan las fuentes de datos sean actividades realizadas por la inteligencia artificial, diciendo: “Creo que eso seguirá siendo realizado por humanos en el futuro previsible”.

#5- Reducción de costos (y tal vez generación de ingresos)

Es un entorno de reducción de costos y muchas organizaciones están priorizando cómo la inteligencia artificial generativa puede ayudar con esas iniciativas.

“Hay dos formas de mejorar la rentabilidad. Una es en el lado de los ingresos, que es mucho más externo y donde te vas a encontrar con muchos problemas”, dijo Kristen. “La otra [forma de mejorar la rentabilidad] es reducir los costos internamente… Muchas personas se preguntan, ‘¿cómo podemos reducir los costos internos utilizando la IA?’ Luego, con suerte, hay muchas lecciones aprendidas que pueden ayudar a construir el camino hacia casos de uso más externos y generadores de ingresos”.

5 desafíos de la IA generativa

Ahora que todos estamos emocionados con las posibilidades de la IA, es hora de enfrentarnos a algunos desafíos y limitaciones muy reales. Estos incluyen:

#1- Alucinaciones, confiabilidad y confianza

Se entiende bastante bien que los modelos de lenguaje grandes alucinan, o en otras palabras, producen resultados incorrectos con confianza. Esto puede ser desafiante ya que a menudo confundimos argumentos bien razonados con los correctos.

“Hemos visto algunos de los desafíos, ya sea alucinaciones o los desafíos en torno a hacer que GenAI funcione en dominios muy específicos que no son de propósito general… Creo que todos estos problemas siguen siendo desafíos significativos”, dijo Tomasz.

No solo se trata de alucinaciones. Al igual que los paneles de análisis y las aplicaciones de aprendizaje automático, los modelos de IA generativa solo serán tan confiables y confiables como los datos subyacentes a los que acceden o en los que se entrenan. Estos no son problemas nuevos, pero serán más frecuentes y requerirán soluciones más escalables.

“Elegir qué conjunto de datos usar, cómo validarlos, cómo limpiarlos y cómo unirlos para responder las preguntas comerciales [cuando tienes] menos analistas en el proceso va a agravar algunos de los problemas de gobernanza que existen hoy en día”, dijo Lior. “¿Cómo identificas qué conjuntos de datos son confiables, cuáles son útiles y cómo tienes los metadatos y la documentación adecuados para que los datos sean útiles para un modelo?”

La pila de datos subyacente también servirá como una guía clave para que la IA generativa comprenda los datos subyacentes.

“Si le estás preguntando al modelo cómo interpretar tu negocio en función de lo que sabe sobre el resto del mundo, bueno, el resto del mundo no sabe cómo interpretar tu negocio”, dijo Kristen. “¿Dónde impartes una lógica empresarial en tu pila de datos que sirva a cada capa subsiguiente? Creo que haber curado algunas reglas clave en torno a tu negocio, ya sea relacionado con entidades o incrustado en relaciones, en la capa base de tu pila de datos servirá tanto para la velocidad como para la precisión del modelo”.

#2- Resolver sus propios problemas

Tomasz compartió una experiencia relevante sobre los desafíos de usar IA generativa para tareas más amplias:

“Estaba preparando una presentación y quería mostrar el crecimiento de estrellas de GitHub de un repositorio en particular. Y así, necesitaba construir dos o tres piezas de código. Entonces le pedí al robot que produjera un rastreador para obtener la información. Y luego otra parte era trazarlo, y luego quería automatizarlo para poder darle una lista de repositorios por los que pasar”, dijo. “Tuvo muchas dificultades para tomar un gran problema como ese y descomponerlo en tareas individuales y luego construirlo”.

También expresó frustración con la tendencia de los modelos de IA de generación a encontrarse acorralados una vez que han cometido un error.

“[Cuando] va por un camino equivocado donde el código no se ejecuta, le resulta muy difícil olvidar el error que cometió y quiere seguir mejorando y tienes que reiniciar la sesión. Tiene una memoria muy, muy persistente”, dijo.

#3- Seguridad y privacidad

Este es probablemente el obstáculo más importante para la adopción generalizada de Gen AI según Tomasz.

“Muchos [bancos y empresas en la Fortune 2000] lo han bloqueado por completo. Creo que muchos de ellos están esperando que los productos de IA se envíen dentro de un Azure VPC para poder controlarlos”, dijo. “En la nube, pasamos a la multiinquilinidad donde varios clientes están en la misma máquina… Con LLM, ¿los clientes lo aceptarán o realmente necesitamos un LLM por cliente?”

La industria está en las primeras etapas de navegar estas preguntas, pero hasta ahora ha habido cuatro formas principales de resolver estos desafíos de seguridad y privacidad:

  • Prohibirlo
  • Decir periódicamente al LLM “olvida todos mis datos y no los uses para entrenar”
  • Usar una capa intermedia para interceptar información de identificación personal
  • Aceptar el riesgo

La solución a menudo está dictada por el caso de uso. Generar un sitio web con plantillas tiene mucho menos riesgo que el servicio al cliente donde se procesa información y tarjetas de crédito de los clientes.

Y, por supuesto, no habría sido una discusión sobre IA generativa si no hubiera surgido el tema de la inyección de instrucciones y un xkcd relevante sobre la inyección de SQL.

#4- Estamos en las primeras etapas de infraestructura y soluciones

Navegar por la gobernancia, confiabilidad, seguridad y otros desafíos generativos de IA requerirá una infraestructura robusta que aún no existe hoy en día.

“Todavía es temprano en lo que llamaría el lado de la infraestructura y soluciones. Cuando hablamos de Gen AI en este momento, para la mayoría de las personas eso significa usar las APIs de OpenAI. Unos pocos seleccionados podrían estar experimentando con algunos modelos de código abierto y bases de datos vectoriales, pero creo que las herramientas a su alrededor están en una etapa bastante temprana”, dijo Lior.

La clasificación y el control de acceso son otros desafíos en los que una infraestructura de apoyo puede ayudar.

“La clasificación de datos es un problema difícil. Cuando piensas en los controles de acceso y luego los controles de acceso a gran escala… ya debes tener una comprensión de la clasificación”, dijo Kristen. “Hemos estado invirtiendo mucho tiempo en este espacio y tenemos algunas características nativas de Snowflake también.

La información de identificación personal (PII) en realidad no es tan difícil de descifrar, pero luego creo que hay un enfoque en permitir que las personas creen clasificadores personalizados. Porque el universo es ilimitado y si piensas en lo que constituye secretos comerciales o datos de clientes, eso puede ser dinámico dentro de una empresa”.

#5- Cambios en las habilidades requeridas

Quizás la parte más extensa de la discusión se centró tanto en la demanda de conjuntos de habilidades emergentes de IA generativa como en los cambios en la fuerza laboral que resultarán de la implementación de estos grandes modelos de lenguaje en toda la empresa.

¿Los grandes ganadores? Los equipos de datos que verán una demanda exponencial de sus servicios, especialmente para evaluar y ajustar diferentes modelos de IA generativa.

“Creo que parte de la responsabilidad se trasladará al equipo de datos porque necesitarán asegurarse de que las salidas sean precisas y las soluciones que se estén utilizando cumplan con cualquier regulación que se aplique a ese negocio”, dijo Tomasz. “Y serán ellos quienes serán responsables de la evaluación inicial hasta el mantenimiento continuo. Así que creo que los equipos de datos crecerán”.

Lior señaló que los avances tecnológicos pasados indican que es improbable que haya menos personas dedicadas a los datos, sino que generaremos más valor a partir de ellos.

“Lo hemos visto una y otra vez con el software en el pasado. Eventualmente pasamos de Assembly a Python, que es mucho más productivo. ¿Pero eso significa que teníamos menos ingenieros de software? No, teníamos más y teníamos más software en el mundo y creo que eso será así en un futuro previsible”, dijo.

Uno de los desafíos de esta creciente demanda será cerrar la brecha de habilidades, como destacó Kristen.

“El impulso que he visto es que, en la era anterior a OpenAI, se intenta cerrar la brecha de habilidades permitiendo que más personas hagan SQL. Gestionar toda la infraestructura, modelos y todo lo que hemos hablado con LLMs, siento que eso está más profundo en la pila… no son más analistas de SQL, sino una persona diferente”.

Un momento emocionante para los equipos de datos

Como dejó claro nuestro panel de expertos, la IA generativa tendrá un gran impacto en la forma en que las organizaciones piensan y extraen valor de sus datos… solo que podría llevar un poco más de tiempo del que sugieren los posts de Twitter X.

Es un momento emocionante para estar en el espacio de datos y tener la oportunidad de resolver algunos de estos desafíos importantes.

¡Gracias por leer! Sígueme en VoAGI para más historias sobre ingeniería de datos, calidad de datos y temas relacionados. Suscríbete para recibir mis historias en tu bandeja de entrada.