Cómo evitar ser engañado por la precisión del modelo

Evitar engaños por precisión del modelo.

Una guía visual de las métricas de modelos de clasificación binaria y su uso adecuado

Imagen del autor: Generada con Midjourney

Antecedentes – Simple en la superficie

Las métricas utilizadas para evaluar el rendimiento de los modelos de clasificación son bastante sencillas, al menos desde un punto de vista matemático. Sin embargo, he observado que muchos modeladores y científicos de datos tienen dificultades para articular estas métricas e incluso las aplican incorrectamente. Este es un error fácil de cometer, ya que estas métricas parecen simples en la superficie, pero sus implicaciones pueden ser profundas dependiendo del dominio del problema.

Este artículo sirve como una guía visual para explicar las métricas comunes de los modelos de clasificación. Exploraremos definiciones y usaremos ejemplos para resaltar dónde se utilizan las métricas de manera inapropiada.

Una breve nota sobre visualización

Cada visualización consta de noventa sujetos, que representan cualquier cosa que deseemos clasificar. Los sujetos azules denotan muestras negativas, mientras que los rojos son muestras positivas. El recuadro morado es el modelo que intenta predecir las muestras positivas. Todo lo que está dentro de este recuadro es lo que el modelo predice como positivo.

Con eso aclarado, adentrémonos en las definiciones.

Precisión y recuperación

Para muchas tareas de clasificación, hay un equilibrio entre la precisión y la recuperación. A menudo ocurre que optimizar la recuperación conlleva un costo para la precisión. Pero, ¿qué significan realmente estos términos? Comencemos con las definiciones matemáticas y luego pasemos a las representaciones visuales.

Precisión = TP / (TP + FP)

Recuperación = TP / (TP + FN)

Donde TP = Número de verdaderos positivos, FP = Número de falsos positivos, FN = Número de falsos negativos.

Enfoquémonos en el gráfico directamente debajo, en el que hay cuatro muestras positivas. Recuerde, las predicciones positivas del modelo están representadas por el recuadro en el gráfico. Observando el gráfico, vemos que el modelo predice correctamente las cuatro muestras positivas: podemos ver esto porque todas las muestras positivas están dentro del recuadro. Podemos calcular la recuperación del modelo a partir del gráfico contando los casos positivos dentro del recuadro (TP = 4) dividido por el número total de casos positivos (TP = 4 + FN = 0).

Observe que FN es 0 porque no hay casos positivos fuera del recuadro.

Imagen del autor: Representación visual de un modelo con una recuperación del 100% y una precisión del 40%. El modelo está representado por el recuadro morado.

La precisión se puede explicar de manera similar. Es simplemente el número de casos positivos en el recuadro (TP = 4) dividido por el número total de casos en el recuadro (TP = 4 + FP = 6). Un cálculo sencillo revela que la precisión del modelo es solo del 40%.

Se puede observar que un modelo puede tener una alta recuperación pero una baja precisión, y viceversa. El gráfico a continuación muestra esto, donde la recuperación es solo del 50%, mientras que la precisión es del 100%. Veamos si puedes internalizar cómo se llega a estos números.

Aquí tienes una pista para ayudarte, el número de falsos negativos es dos, ya que hay dos muestras positivas fuera del recuadro.

Imagen del autor: Representación visual de un modelo con una precisión del 100% y una recuperación del 50%. El modelo está representado por el recuadro morado.

Tasas de falsos positivos y tasas de verdaderos negativos

La tasa de falsos positivos (FPR) tal vez parezca más intuitiva, posiblemente debido a su nombre. Sin embargo, exploremos el concepto de la misma manera que lo hicimos para las otras métricas. Matemáticamente, expresamos la FPR de la siguiente manera:

FPR = FP/(FP + TN)

Aquí, TN representa el número de sujetos verdaderamente negativos.

Examinando la primera imagen nuevamente, el FPR se puede determinar observando el número de muestras negativas dentro del recuadro (FP=6) dividido por el número total de muestras negativas (FP=6 + TN=80). Para nuestra primera imagen, la tasa de falsos positivos es solo del 7%, y para la segunda, es del 0%. Intenta descubrir por qué ocurre esto.

Recuerda, los sujetos dentro del recuadro son aquellos que el modelo predice como positivos. Por lo tanto, las muestras negativas fuera del recuadro son aquellas que el modelo ha identificado como negativas.

La tasa de verdaderos negativos (TNR) se puede calcular utilizando la siguiente fórmula:

TNR = TN/(TN + FP)

Observa que el TNR siempre es uno menos la tasa de falsos positivos.

Exactitud

La exactitud es un término que se utiliza de manera poco precisa en el contexto del rendimiento del modelo, pero ¿qué significa realmente? Comencemos con la definición matemática:

Exactitud = (TP + TN) / (TP + TN + FP + FN)

Utilizando la misma lógica que aplicamos anteriormente, podemos calcular la exactitud del modelo como 93% para la primera imagen y 97% para la segunda (intenta derivar esto por ti mismo/a). Esto puede levantar banderas rojas en tu mente sobre por qué la exactitud puede ser una métrica engañosa en algunos casos. Exploraremos esto con más detalle a continuación.

Uso correcto de las métricas

¿Por qué nos preocupamos por estas métricas? Porque nos brindan formas de evaluar el rendimiento de nuestros modelos. Una vez que comprendemos estas métricas, incluso podemos determinar el valor comercial asociado con los modelos. Por eso es importante tener una buena intuición sobre su uso apropiado (e inapropiado). Para ilustrar esto, investigaremos brevemente los dos escenarios comunes en tareas de clasificación, a saber, conjuntos de datos equilibrados y desequilibrados.

Conjuntos de datos desequilibrados

Los diagramas mostrados anteriormente son ejemplos de tareas de clasificación desequilibradas. En pocas palabras, las tareas desequilibradas tienen una baja representación de sujetos positivos en comparación con los sujetos negativos. Muchos casos de uso comerciales para la clasificación binaria se incluyen en esta categoría, como la detección de fraudes con tarjetas de crédito, la predicción de la pérdida de clientes, el filtrado de spam, etc. Seleccionar las métricas incorrectas para la clasificación desequilibrada puede llevarnos a tener creencias sobre el rendimiento de nuestro modelo demasiado optimistas.

El problema principal con la clasificación desequilibrada es la posibilidad de que el número de muestras verdaderamente negativas sea alto y los falsos negativos sean bajos. Para ilustrar esto, consideremos otro modelo y evaluémoslo en nuestros datos desequilibrados. Podemos crear un escenario extremo donde el modelo simplemente predice que todos los sujetos son negativos.

Imagen del Autor: Representación visual de un modelo “no discriminatorio” que predice negativo para cada sujeto en un conjunto de datos desequilibrado

Calculemos cada una de las métricas en este escenario.

  • Exactitud: (TP=0 + TN=86)/(TP=0 + TN=86 + FP=0 + FN=4) = 95%
  • Precisión: (TP=0) /(TP=0 + FP=0) = indefinido
  • Recuperación: (TP=0) / (TP=0 + FN=4) = 0%
  • FPR: (FP=0) / (FP=0 + TN=86) = 0%
  • TNR: (TN=86) / (TN=86 + FP=0) = 100%

Los problemas con la exactitud, el FPR y el TNR deberían comenzar a ser más evidentes. Cuando trabajamos con conjuntos de datos desequilibrados, podemos producir un modelo de alta exactitud que tenga un bajo rendimiento al implementarlo. En el ejemplo anterior, el modelo no tiene capacidad para detectar sujetos positivos pero aún logra una exactitud del 95%, un FPR del 0% y un TNR perfecto.

Ahora, imagina implementar un modelo así para realizar diagnósticos médicos o detectar fraudes; claramente sería inútil e incluso peligroso. Este ejemplo extremo ilustra el problema de usar métricas como la exactitud, el FPR y el TPR para evaluar el rendimiento de modelos que trabajan con datos desequilibrados.

Conjuntos de datos equilibrados

Para problemas de clasificación equilibrados, el número de verdaderos negativos potenciales es significativamente menor que en el caso desequilibrado.

Imagen del autor: Representación visual de un modelo 'no discriminatorio' que predice negativo para cada sujeto en un conjunto de datos equilibrado

Si tomamos nuestro modelo “no discriminatorio” y lo aplicamos al caso equilibrado, obtenemos los siguientes resultados:

  • Precisión: (VP=0 + VN=45) / (VP=0 + VN=45 + FP=0 + FN=45) = 50%
  • Precisión: (VP=0) / (VP=0 + FP=0) = indefinido
  • Recuperación: (VP=0) / (VP=0 + FN=45) = 0%
  • FPR (Tasa de falsos positivos): (FP=0) / (FP=0 + VN=45) = 0%
  • TNR (Tasa de verdaderos negativos): (VN=45) / (VN=45 + FP=0) = 100%

Aunque todas las demás métricas siguen siendo las mismas, la precisión del modelo ha disminuido al 50%, lo que podría ser una representación mucho más indicativa del rendimiento real del modelo. Aunque la precisión sigue siendo engañosa sin la precisión y la recuperación.

Curvas ROC vs. Curvas de precisión-recuperación

Las curvas ROC son un enfoque común utilizado para evaluar el rendimiento de los modelos de clasificación binaria. Sin embargo, al lidiar con conjuntos de datos desequilibrados, también pueden proporcionar resultados demasiado optimistas y no del todo significativos.

Una breve descripción general de las curvas ROC y de precisión-recuperación: básicamente estamos trazando las métricas de clasificación entre sí para diferentes umbrales de decisión. Comúnmente medimos el área bajo la curva (o AUC) para tener una indicación del rendimiento del modelo. Sigue los enlaces para obtener más información sobre las curvas ROC y de precisión-recuperación.

Para ilustrar cómo las curvas ROC pueden ser demasiado optimistas, he construido un modelo de clasificación en un conjunto de datos de fraudes con tarjetas de crédito tomado de Kaggle. El conjunto de datos consta de 284,807 transacciones, de las cuales 492 son fraudulentas.

Nota: Los datos son de uso libre para fines comerciales y no comerciales sin permiso, según se indica en la licencia de Open Data Commons atribuida a los datos.

Imagen del autor: Curva ROC en conjunto de datos desequilibrado

Al examinar la curva ROC, podríamos creer que el rendimiento del modelo es mejor de lo que realmente es, ya que el área bajo esta curva es 0.97. Como hemos visto anteriormente, la tasa de falsos positivos puede ser demasiado optimista para problemas de clasificación desequilibrados.

Imagen del autor: Curva de precisión-recuperación en conjunto de datos desequilibrado

Un enfoque más robusto sería utilizar la curva de precisión-recuperación. Esto proporciona una estimación mucho más sólida del rendimiento de nuestro modelo. Aquí podemos ver que el área bajo la curva de precisión-recuperación (AUC-PR) es mucho más conservadora, con un valor de 0.71.

Tomando una versión equilibrada del conjunto de datos donde las transacciones fraudulentas y no fraudulentas son 50:50, podemos ver que el AUC y el AUC-PR están mucho más cerca uno del otro.

Imagen del autor: Curva ROC en conjunto de datos equilibrado
Imagen de Autor: Curva de precisión-recuperación en conjunto de datos balanceado

El cuaderno para generar estos gráficos está disponible en mi repositorio de GitHub.

Existen formas de mejorar el rendimiento de los modelos de clasificación en conjuntos de datos desequilibrados, exploro esto en mi artículo sobre datos sintéticos.

¿Puede los Datos Sintéticos Mejorar el Rendimiento del Aprendizaje Automático?

Investigando la Capacidad de los Datos Sintéticos para Mejorar el Rendimiento del Modelo en Conjuntos de Datos Desequilibrados

towardsdatascience.com

Conclusión

Comprender las métricas del modelo de clasificación va más allá de las fórmulas matemáticas. También debes entender cómo se debe utilizar cada métrica y sus implicaciones tanto para conjuntos de datos balanceados como desequilibrados. Como regla general, las métricas que se calculan en función de los verdaderos negativos o los falsos negativos pueden ser demasiado optimistas cuando se aplican a conjuntos de datos desequilibrados. Espero que este recorrido visual te haya dado una mejor intuición.

Encontré esta explicación visual útil para articular el enfoque a mis partes interesadas no técnicas. Siéntete libre de compartir o tomar prestado el enfoque.

Sígueme en LinkedIn

Suscríbete a VoAGI para obtener más ideas de mi parte:

Comparto proyectos de ciencia de datos, experiencias y conocimientos para ayudarte en tu camino. Puedes registrarte en VoAGI a través de…

johnadeojo.medium.com

Si estás interesado en integrar IA o ciencia de datos en las operaciones de tu negocio, te invitamos a programar una consulta inicial gratuita con nosotros:

Reserva en línea | Soluciones Centradas en Datos

Descubre nuestra experiencia en ayudar a las empresas a alcanzar metas ambiciosas con una consulta gratuita. Nuestros científicos de datos y…

www.data-centric-solutions.com