Elegir un formato de Data Lake ¿En qué debes buscar realmente?
Formato de Data Lake ¿Qué buscar?
Recientemente hemos visto muchas publicaciones sobre una variedad de formatos de archivo diferentes para los lagos de datos. Hay Delta Lake, Hudi, Iceberg y QBeast, por nombrar algunos.
Puede ser difícil hacer un seguimiento de todos estos formatos de lago de datos, y mucho menos descubrir por qué (o si realmente) necesitamos esta amplia selección, y lo que es más importante, qué lago de datos es el mejor para un caso de uso determinado.
La respuesta breve: Todos esos formatos especiales de lago de datos están orientados a intentar hacer que sus datos sean consultables directamente.
Eso es algo bueno de hacer, pero no debería ser el propósito principal de su lago de datos.
- Optimiza la utilización de AWS Inferentia con modelos FastAPI y PyT...
- Equipo de investigación avanza un paso en la computación neuromórfica
- Los peligros de compartir en las redes sociales el lado oscuro de c...
Discutamos un poco más sobre esto: cómo elegir el mejor formato de lago de datos y, al mismo tiempo, por qué no debería preocuparse demasiado por el formato. Hay algo más que nosotros, los ingenieros de Estuary, consideramos más importante.
Y tengo curiosidad por ver si estará de acuerdo.
Consultas directas y opciones de su lago de datos
Hay muchas herramientas excelentes disponibles para realizar diversos tipos de consultas.
Tiene cosas como Elasticsearch para búsqueda de texto completo, TimescaleDB para datos de series temporales, Pinecone + ChatGPT para hacer preguntas conversacionales sobre sus datos, PostGIS para datos geoespaciales y muchas, muchas más.
Hay una gran cantidad de sistemas, estrategias y algoritmos diferentes para indexar y consultar datos. ¡Y hay una razón perfectamente buena para eso! El mundo de los datos es enorme. Incluso dentro de una sola empresa pequeña de VoAGI, es común ver una gran variedad tanto en los tipos de datos que tiene como en las formas en que desea aprovecharlos.
Entonces, si bien las herramientas para consultar directamente su lago de datos son impresionantes y a veces bastante útiles, como mucho son una característica adicional agradable.
No importa qué tan increíble sea el formato de su lago de datos, no puede superar a PostGIS en consultas geoespaciales, o a Elasticsearch en búsqueda de texto completo, o …ya se hace una idea. Incluso en los casos en que las consultas directas contra el lago de datos pueden funcionar, rara vez son la mejor herramienta para el trabajo.
Una característica de lago de datos más importante
Entonces, si no nos preocupamos por las consultas directas, ¿cómo elige, o diseña, un lago de datos?
A un nivel alto, mi equipo y yo creemos que un lago de datos debería priorizar las integraciones sobre las capacidades de consulta.
En lugar de intentar construir toda su infraestructura en torno a un sistema de almacenamiento de datos todo incluido que afirma hacerlo todo, es mucho más importante que su lago de datos pueda facilitar el aprovechamiento del ecosistema más amplio de herramientas analíticas.
Puede utilizar estas herramientas, a su vez, para hacer lo que hacen mejor: hacer preguntas sobre sus datos.
Cómo llegamos a creer esto…
La razón por la que en Estuary nos preocupan tanto las características del lago de datos es (lo adivinó) que construimos un lago de datos.
Para aquellos que son nuevos aquí: nuestra plataforma, Flow, es en efecto una herramienta de ETL en tiempo real, pero también es un lago de datos en tiempo real con soporte transaccional. Cuando construimos Flow, no utilizamos ninguno de los formatos de lago de datos mencionados anteriormente.
En su lugar, simplemente utilizamos JSON delimitado por saltos de línea. Hemos escrito anteriormente sobre por qué JSON es una buena opción, pero quería ampliar este aspecto en particular: la priorización de la integración sobre la consulta directa. En pocas palabras, eso es lo que hace que el enfoque de Flow sea diferente, tanto en el mundo de ETL como en los lagos de datos.
Sabemos que, por mucho que lo intentemos, no podemos proporcionar capacidades de consulta que sean suficientes para todos, o incluso la mayoría, de los casos de uso.
En cambio, nos enfocamos en las integraciones. Cuando utiliza Flow como su lago de datos, puede materializar fácilmente los datos de su lago en una variedad de otros sistemas en constante crecimiento, que se mantienen actualizados automáticamente en tiempo real.
Esto facilita la consulta de sus datos utilizando las herramientas que mejor se adapten a su escenario.
Cómo elegir realmente el mejor lago de datos para usted
Antes de que empieces a encender tus antorchas, quiero aclarar que consultar tu lago de datos no es malo. Tampoco puedo decir con certeza que el enfoque de integraciones primero que usamos en Flow sea el adecuado para tus necesidades. Eso sería un tanto presuntuoso, sin mencionar que sería imposible determinarlo sin conocer tu situación.
Hay muchas razones por las que la consulta directa podría ser el mejor enfoque para tu escenario específico. Si ese es tu caso, ya sabes quién eres. Ya conoces los tipos de consultas que necesitas ejecutar y tus resultados deseados. En tu caso, seleccionar entre la variedad de formatos de lago de datos en el mercado es simplemente una cuestión de comparar capacidades y probar tus consultas.
Pero si estás buscando obtener más valor de tus datos en general en múltiples dominios empresariales, mejorar el rendimiento de las consultas directas contra el lago de datos probablemente no te aporte mucho.
Por otro lado, facilitar el movimiento de datos hacia otros sistemas sí marca una gran diferencia. Significa que puedes usar libremente la mejor herramienta para cada escenario. Tal vez, lo que es igual de importante, te brinda la libertad de probar diferentes sistemas para descubrir cuál es la mejor herramienta incluso.
Para ti, mi consejo para tu búsqueda de lago de datos es: no te obsesiones demasiado con el formato de los datos o las capacidades de consulta. En cambio, echa un vistazo más de cerca a las integraciones y a cómo mueves los datos hacia y desde el lago. Obtendrás mejores capacidades de consulta, usuarios más satisfechos y mucha más flexibilidad.
¿Tienes pensamientos sobre esta discusión sobre la elección de un lago de datos? Nos encantaría escucharlos.
Aunque casi siempre tenemos los comentarios desactivados en el blog (incluso un equipo compuesto principalmente por ingenieros puede ser acosado por bots de comentarios, vaya figura) nuestras puertas siempre están abiertas en Slack.
Artículo escrito por Phil Fried, ingeniero en Estuary