Sigue este proceso de validación de datos para mejorar la precisión de tu ciencia de datos
Sigue este proceso de validación de datos para mejorar la precisión de tu ciencia de datos.
Cuando los datos de entrenamiento y de inferencia provienen de diferentes fuentes
Tabla de contenidos
- Introducción
- Habilitar la recopilación de datos
- Establecer una línea base
- Detectar valores atípicos
- Resumen
- Referencias
Introducción
Este artículo está dirigido a científicos de datos que están comenzando o desean mejorar su proceso actual de validación de datos, sirviendo como una guía general con algunos ejemplos. Primero, quiero definir la validación de datos aquí, ya que puede tener diferentes significados para otros roles laborales similares. Para fines de este artículo, diremos que la validación de datos es el proceso de asegurarse de que los datos de entrenamiento utilizados para su modelo coincidan o estén alineados con los datos de inferencia. Para algunas empresas y casos de uso, no será necesario preocuparse por este problema si los datos provienen de la misma fuente. Por lo tanto, este proceso debe ocurrir y solo es útil cuando los datos provienen de diferentes fuentes. Algunas de las razones por las que los datos no provienen de la misma fuente son si sus datos de entrenamiento son históricos y personalizados (por ejemplo, características derivadas de datos existentes) y/o sus datos de inferencia provienen de tablas en vivo donde el entrenamiento es datos instantáneos. Todo eso para decir que hay muchas razones por las que esta falta de coincidencia puede estar presente y será increíblemente beneficioso desarrollar un proceso a gran escala para garantizar que los datos que está alimentando a su modelo en la inferencia sean los que usted, es decir, los datos del modelo entrenado, esperan.
Habilitar la recopilación de datos
Hay muchas formas en las que puedes habilitar la recopilación de datos. Pero una vez más, primero queremos definir los datos que se recopilan, que serían los datos de inferencia. Esperamos tener nuestros datos de entrenamiento (compuestos tanto por divisiones de entrenamiento como de prueba) ya ubicados en algún lugar, tal vez en S3, una herramienta de almacenamiento de archivos, en una tabla temporal en una base de datos, incluso en un archivo CSV, y así sucesivamente.