De la Evaluación a la Iluminación Adentrándose en las Predicciones Fuera de Muestra en la Validación Cruzada

From Evaluation to Illumination Exploring Out-of-Sample Predictions in Cross-Validation

Descubriendo ideas y superando limitaciones a través de predicciones fuera de la muestra.

Entender la validación cruzada y aplicarla en el trabajo diario práctico es una habilidad esencial para todo científico de datos. Si bien el propósito principal de la validación cruzada es evaluar el rendimiento del modelo y ajustar los hiperparámetros, también ofrece salidas adicionales que deben tenerse en cuenta. Al obtener y combinar predicciones para cada pliegue, podemos generar predicciones del modelo para todo el conjunto de entrenamiento, comúnmente conocidas como predicciones fuera de la muestra o fuera de los pliegues.

Es crucial no descartar estas predicciones, ya que contienen una gran cantidad de información valiosa sobre el enfoque de modelado y el conjunto de datos en sí. Al explorarlas a fondo, es posible descubrir respuestas a preguntas como por qué el modelo no está funcionando como se espera, cómo mejorar la ingeniería de características y si existen limitaciones inherentes en los datos.

El enfoque general es sencillo: investigar las muestras donde el modelo muestra alta confianza pero comete errores. En la publicación, mostraré cómo estas predicciones me ayudaron en tres proyectos del mundo real.

Encontrar limitaciones de datos

Trabajé en un proyecto de mantenimiento predictivo donde el objetivo era predecir fallas en los vehículos con anticipación. Uno de los enfoques que exploré fue entrenar un clasificador binario. Fue un método relativamente simple y directo.

Después de entrenar usando validaciones cruzadas de series temporales, examiné las predicciones fuera de la muestra. Específicamente, me centré en los falsos positivos y negativos, las muestras con las que el modelo tuvo dificultades para aprender. Estas predicciones incorrectas no siempre son culpa del modelo. Es posible que algunas muestras tengan conflictos entre sí y confundan al modelo.

Encontré varios casos falsos negativos etiquetados como fallas, y el modelo rara vez los trató como fallas. Esta observación despertó mi curiosidad. Tras una investigación más detallada, descubrí muchas muestras negativas precisas que eran casi idénticas a ellas.

La Figura 1 a continuación compara los falsos y verdaderos negativos mediante visualización de datos. No entraré en detalles. La idea es ejecutar algoritmos de vecinos más cercanos basados en la distancia euclidiana o la distancia de Mahalanobis en el espacio de datos en bruto; encontré muestras extremadamente cercanas a esos falsos negativos…