Monitoreo de modelos de Machine Learning en producción ¿Por qué y cómo?
Monitoreo de modelos de Machine Learning en producción
¿Cómo se ve afectado nuestro modelo en un mundo en constante evolución? Un análisis enfocado en ejemplos de cambios y en la implementación de estrategias de monitoreo basadas en Python
El desarrollo de modelos de Aprendizaje Automático (AA) a menudo requiere tiempo y experiencia técnica. Como entusiastas de la ciencia de datos, cuando adquirimos un conjunto de datos para explorar y analizar, nos embarcamos con entusiasmo en entrenarlo y validarlo utilizando diversos modelos de última generación o empleando estrategias centradas en los datos. Se siente increíblemente satisfactorio cuando optimizamos el rendimiento del modelo como si todas las tareas se hubieran completado.
Sin embargo, después de implementar el modelo en producción, hay muchas razones que contribuyen a un menor rendimiento o degradación del modelo.
#1 Los datos de entrenamiento se generan mediante simulación
Los científicos de datos a menudo enfrentan limitaciones para acceder a los datos de producción, lo que resulta en el entrenamiento del modelo utilizando datos simulados o de muestra. Si bien los ingenieros de datos tienen la responsabilidad de garantizar la representatividad de los datos de entrenamiento en términos de escala y complejidad, los datos de entrenamiento aún se desvían en cierta medida de los datos de producción. También existe el riesgo de fallas sistemáticas en el procesamiento de datos aguas arriba, como la recopilación y etiquetado de datos. Estos factores pueden afectar la extracción de características de entrada útiles adicionales o dificultar la capacidad del modelo para generalizar correctamente.
Ejemplo: Los datos de inversores en la industria financiera o la información de pacientes en la industria de la salud a menudo se simulan debido a preocupaciones de seguridad y privacidad.
#2 Los nuevos datos de producción muestran una nueva distribución de datos
Con el tiempo, las características de las características de entrada también pueden cambiar, como cambios en grupos de edad, rangos de ingresos u otras características demográficas de los clientes. La fuente de datos en sí misma incluso puede ser completamente reemplazada debido a varios casos. Durante el proceso de desarrollo del modelo, la optimización se basa en aprender y capturar patrones del grupo mayoritario dentro de los datos de entrenamiento. Sin embargo, a medida que avanza el tiempo, la mayoría anterior puede convertirse en minoría en los datos de producción más recientes, lo que hace que el modelo estático original sea inadecuado para satisfacer las necesidades de producción más recientes.