Simplificando el Análisis de Series Temporales para Científicos de Datos
Simplificación del análisis de series temporales para científicos de datos
Nota del editor: Jeff Tao es un ponente para ODSC West 2023 este otoño. ¡Asegúrate de ver su charla, “¿Qué es una base de datos de series de tiempo y por qué la necesito?” allí!
La mayoría de los científicos de datos están familiarizados con el concepto de datos de series de tiempo y trabajan con él con frecuencia. Sin embargo, la base de datos de series de tiempo (TSDB) sigue siendo una herramienta subutilizada en la comunidad de la ciencia de datos. Aunque configurar una base de datos para ejecutar tus análisis puede parecer una tarea ardua, las bases de datos de series de tiempo de código abierto modernas pueden proporcionar beneficios significativos a cualquier científico que realice análisis de series de tiempo en un conjunto de datos grande, y con mucho menos esfuerzo de lo que puedas imaginar.
Típicamente, el análisis de series de tiempo se realiza en archivos CSV o en lagos de datos. Estas pueden parecer soluciones más simples que las bases de datos tradicionales porque pueden almacenar prácticamente cualquier tipo de datos sin necesidad de un esquema predefinido. Sin embargo, dificultan el mantenimiento del contexto de cada punto de datos, por ejemplo, la ubicación de un recolector de datos, la temperatura en el momento de la recolección u otros elementos que deben preservarse para garantizar que tu análisis sea correcto. Además, la flexibilidad de los lagos de datos en términos de cómo se organiza la información puede tener el efecto no deseado de dificultar la consulta o filtrado de esos datos.
Por otro lado, una base de datos de series de tiempo diseñada específicamente puede mantener fácilmente este tipo de metadatos en forma de etiquetas asociadas con cada serie de tiempo. La limpieza y transformación de datos también se vuelven tareas sencillas con una TSDB, por ejemplo, alinear las marcas de tiempo de múltiples conjuntos de datos se puede realizar rápidamente con funciones de interpolación o agregación incorporadas en la base de datos. Y la recuperación de datos es sencilla con un lenguaje de consulta como SQL, donde puedes filtrar por valor, etiqueta, rango de tiempo y más.
- Saturno Un nuevo enfoque para entrenar modelos de lenguaje grandes ...
- On-Policy vs. Off-Policy Monte Carlo, con Visualizaciones
- Este boletín de inteligencia artificial es todo lo que necesitas #63
TDengine es un ejemplo de una base de datos de series de tiempo que simplifica el proceso de análisis de datos de series de tiempo a gran escala para que los científicos de datos puedan dedicar más tiempo a su trabajo. Procesa y almacena rápidamente conjuntos de datos masivos con alto rendimiento y escalabilidad, y con un poco de conocimiento de SQL puedes administrar tus datos de manera mucho más conveniente que con los archivos CSV tradicionales. Lo más importante, puedes comenzar a utilizar TDengine en solo 60 segundos, y su edición de código abierto se puede descargar y usar de forma gratuita.
Por defecto, se incluyen una variedad de funciones de series de tiempo, como sumas acumulativas, promedios ponderados por tiempo y promedios móviles, y también puedes crear funciones definidas por el usuario (UDF) en Python o C. El soporte para proyectos populares del ecosistema de Python como pandas y Jupyter asegura que puedas importar y exportar tus datos fácilmente, y la integración perfecta con herramientas de visualización como Grafana te permite mostrar tu trabajo de manera innovadora y generar nuevas ideas.
Si deseas obtener más información sobre las bases de datos de series de tiempo y cómo pueden ayudarte a analizar datos de series de tiempo de manera más eficiente, te animo a asistir a mi próxima sesión “¿Qué es una base de datos de series de tiempo y por qué la necesito?” en ODSC West 2023. La sesión incluirá un código de ejemplo y una demostración, después de lo cual estaré encantado de responder cualquier pregunta que puedas tener sobre el tema.
Sobre el autor:
Jeff Tao es el fundador y CEO de TDengine. Tiene experiencia como tecnólogo y emprendedor en serie, habiendo realizado previamente investigación y desarrollo en Internet móvil en Motorola y 3Com, y establecido dos startups tecnológicas exitosas. Previendo el crecimiento explosivo de los datos de series de tiempo generados por máquinas y sensores que se está produciendo actualmente, fundó TDengine en mayo de 2017 para desarrollar una base de datos de series de tiempo de alto rendimiento diseñada específicamente para empresas de IoT (Internet de las cosas) y IIoT (Internet Industrial de las cosas) modernas.