Aprendizaje automático probabilístico con emparejamiento de cuantiles un ejemplo con Python

Aprendizaje automático probabilístico con emparejamiento de cuantiles en Python

Una técnica poco conocida para convertir las predicciones de regresión cuantil en una distribución de probabilidad.

“Quantile Matching”, de Giulia Roggia. Usado con permiso.
  • Regresión cuantil
  • Emparejamiento de cuantiles
  • Ejemplo en Python: predecir la progresión de la diabetes
  • Conclusión

Cuando entrenamos modelos de regresión, obtenemos predicciones puntuales. Sin embargo, en la práctica a menudo estamos interesados ​​en estimar la incertidumbre asociada con cada predicción. Para lograr eso, asumimos que el valor que estamos tratando de predecir es una variable aleatoria y el objetivo es estimar su distribución.

Existen muchos métodos disponibles para estimar la incertidumbre a partir de las predicciones, como la estimación de la varianza, métodos bayesianos, predicciones conformes, etc. La regresión cuantil es uno de estos métodos bien conocidos.

Regresión cuantil

La regresión cuantil consiste en estimar un modelo para cada cuantil en el que estés interesado. Esto se puede lograr mediante el uso de una función de pérdida asimétrica conocida como pérdida de pinball. La regresión cuantil es simple, fácil de entender y está disponible en bibliotecas de alto rendimiento como LightGBM. Sin embargo, la regresión cuantil presenta algunos problemas:

  • No hay garantía de que el orden de los cuantiles sea correcto. Por ejemplo, tu predicción para el cuantil del 50% podría ser mayor que la que obtienes para el cuantil del 60%, lo cual es absurdo.
  • Para obtener una estimación de toda la distribución, es necesario entrenar muchos modelos. Por ejemplo, si necesitas una estimación para cada cuantil punto porcentual, debes entrenar 99 modelos.

Así es como el emparejamiento de cuantiles puede ayudar.

Emparejamiento de cuantiles

El objetivo del emparejamiento de cuantiles es ajustar una función de distribución dada una muestra de estimaciones de cuantil. Podemos plantear esto como un problema de regresión, por lo que la curva no tiene que ajustarse perfectamente a los cuantiles. En cambio, debería estar “lo más cerca posible”, manteniendo las propiedades que la convierten en una función de distribución.

Específicamente, estamos interesados en estimar la función de distribución acumulativa inversa: dada una…