Organización de datos no estructurados
'Data Organization'

La empresa de bases de datos vectoriales Pinecone aseguró en abril $100 millones en financiamiento de capital de riesgo (VC) en una valuación de $750 millones. Otras startups de bases de datos vectoriales también han recaudado millones de VC recientemente, incluyendo Chroma, Weviate y Qdrant. Esto plantea la pregunta: ¿qué son exactamente las bases de datos vectoriales y por qué están generando interés ahora?
Según las estimaciones de los analistas, el 80% al 90% de los datos de cualquier organización son no estructurados, y las bases de datos han pasado por muchas iteraciones, desde bases de datos de lenguaje de consulta estructurado/SQL (en las que los datos se estructuran en una colección de tablas) y bases de datos relacionales (que se centran en la relación entre los elementos de datos almacenados) hasta bases de datos NoSQL (en las que los datos se almacenan y recuperan en diferentes estructuras sin utilizar filas y columnas). NoSQL fue desencadenado por el advenimiento de la Web 2.0 a principios de los años 2000.
Esas bases de datos tradicionales no estaban adecuadamente equipadas para analizar datos no estructurados, especialmente en tiempo real. Ahora, con el impulso del aprendizaje automático, han surgido bases de datos vectoriales para su uso en aplicaciones de aprendizaje automático. Un vector es una matriz de datos de alta dimensión en la que cada dimensión es un número.
Charles Xie, CEO y fundador de la empresa de bases de datos vectoriales Zilliz y del proyecto Milvus de la Fundación Linux, explica: “Los vectores son importantes porque cuando hablamos de imágenes o videos, son la representación numérica de datos no estructurados que pueden ser fácilmente procesados por una máquina”.
Aquí es donde el uso de modelos de aprendizaje automático para convertir datos no estructurados en valores de punto flotante, o incrustaciones vectoriales, es clave. En contraste, esas imágenes, fotos y videos no estructurados son lentos y suponen un desafío para clasificar manualmente en bases de datos relacionales. Como ejemplo, Xie dice que se necesitaron 25.000 personas (curadores) para etiquetar el ahora famoso conjunto de datos ImageNet.
Una vez que los datos están en un formato legible por la máquina, las bases de datos relacionales almacenan y buscan datos estructurados basados en tablas, dice Xie. Sin embargo, a diferencia de los datos estructurados, no hay una manera fácil de almacenar y buscar de manera eficiente grandes cantidades de datos no estructurados dentro de una base de datos relacional.
Por ejemplo, buscar rápidamente zapatos similares, dada una colección de fotos de zapatos desde varios ángulos, sería imposible en una base de datos relacional, ya que entender el tamaño, el estilo, el tipo de tacón, el color, etc., puramente a partir de los valores de píxel crudos de la imagen es difícil, observa Chris Churilo, vicepresidenta de marketing en Zilliz. “Así que queremos recurrir a una máquina para que lo haga por nosotros”, usando modelos “que van a arrojar una representación numérica de este contenido” que son incrustaciones o vectores, dice ella. “Lo interesante de tener esta representación numérica es que ahora puedo pedirle a la máquina que encuentre [algo] que sea similar comparando estos números entre sí”. La máquina puede hacerlo con bastante precisión, dice Churilo.
Las bases de datos vectoriales se utilizan comúnmente para la búsqueda de similitud y las recomendaciones de productos, confirma Arun Chandrasekaran, vicepresidente distinguido y analista de la firma de investigación de mercado Gartner.
“Una base de datos vectorial indexa y almacena incrustaciones vectoriales para una rápida recuperación”, dice Chandrasekaran. El creciente uso de modelos fundacionales de IA está generando un mayor interés en las bases de datos vectoriales, dice. A medida que los clientes ajusten los modelos de IA generativos, almacenarán y recuperarán esos datos organizativos en bases de datos vectoriales.
En la IA generativa, una base de datos vectorial se puede utilizar para almacenar las incrustaciones vectoriales resultantes del entrenamiento de los modelos fundacionales de IA, agrega Chandrasekaran.
“La base de datos vectorial es el nombre popular de un tema antiguo”, observa Andy Pavlo, profesor asociado de databaseología en la Universidad Carnegie Mellon, cuyo área de investigación son los sistemas de gestión de bases de datos. “Todo se trata de mantenerse al día con la IA”.
En línea con los demás, Pavlo dice que ChatGPT y el aprendizaje automático están almacenando vectores, y las bases de datos vectoriales almacenan esas incrustaciones para que los usuarios puedan usarlas para una búsqueda rápida.
Las bases de datos vectoriales son eficientes para realizar búsquedas de similitud, y son escalables y flexibles, escribe Huaping Gu, ingeniero de datos de software en Apple. Sin embargo, también hay algunas desventajas en su uso. Los vectores de alta dimensión pueden ser computacionalmente costosos. También pueden ser difíciles de visualizar e interpretar, lo que supone un desafío para depurar o ajustar modelos de IA/ML, según Gu.
Las bases de datos vectoriales tampoco devuelven resultados de búsqueda perfectos. “Al final del día, lo que están haciendo es construir índices para realizar una búsqueda de vecinos más cercanos, y la idea es que tienes un espacio multidimensional que representa tus vectores”, dice Pavlo. “Cuando haces la consulta y la conviertes en un embedding en un vector, no aterrizará en una coincidencia exacta”.
En este momento, “los casos de uso para las bases de datos vectoriales son bastante limitados para la mayoría de los clientes empresariales”, observa Chandrasekaran. Sin embargo, espera ver un aumento en su uso. “Están ganando una inmensa popularidad para aplicaciones de inteligencia artificial generativa”, dice, y agrega que “este es un ecosistema incipiente pero de rápido desarrollo”.
Esther Shein es una escritora de tecnología y negocios independiente con sede en el área de Boston.