Conoce diferentes medidas de rendimiento para problemas de clasificación de Machine Learning
Medidas de rendimiento para clasificación de ML
Este artículo te enseñará las diferentes medidas de desempeño utilizadas en tareas de clasificación de aprendizaje automático. El artículo también cubrirá el uso correcto de esas medidas de desempeño.
Comencemos con la pregunta: ¿qué se entiende por medida de desempeño?
En el contexto del aprendizaje automático, podemos considerar las medidas de desempeño como una herramienta de medición que nos dirá qué tan bueno es nuestro modelo entrenado.
Por lo general, “precisión” se considera una medida estándar de desempeño. Pero este enfoque tiene una desventaja en el caso de un problema de clasificación. Veamos esto con un ejemplo.
Supongamos que tenemos un conjunto de datos de validación con 100 filas. La columna objetivo tiene solo dos valores únicos, “A” y “B” (problema típico de clasificación binaria). Supongamos que hay 80 A y 20 B en la columna objetivo de nuestro conjunto de datos de validación. Ahora usemos un modelo básico que siempre produce “A” independientemente de las características de entrada para predecir la salida de nuestro conjunto de datos de validación. Dado que este modelo es extremadamente simple, es probable que subajuste los datos y no generalice bien en los nuevos datos. Pero aún así, aquí obtenemos una precisión del 80% en los datos de validación. Esto es muy engañoso.
Este tipo de conjunto de datos, donde algunas clases son mucho más frecuentes que otras, se llama conjunto de datos desequilibrado o sesgado. La medida de precisión da resultados engañosos para los conjuntos de datos desequilibrados. Por eso necesitamos otros medios para medir el desempeño de nuestro modelo.
- Explora métricas R2 y R2 ajustado de manera intuitiva
- Prediciendo cambios precancerosos en mujeres de alto riesgo un enfo...
- Revolución de la computación basada en la luz Alimentando programas...
No se recomienda utilizar la medida de precisión para conjuntos de datos sesgados.
Nota: está bien utilizar la medida de precisión para conjuntos de datos equilibrados.
Aprendamos algunas otras medidas de desempeño.
- matriz de confusión
- precisión
- recuperación
- puntuación F1
- El área bajo la curva característica de operación del receptor (ROC)
Matriz de confusión
La idea general de la matriz de confusión es contar cuántas veces las instancias de “A” se clasifican como “B” y viceversa.
Para calcular la matriz de confusión, primero necesitas tener predicciones que se puedan comparar con los valores objetivo reales.
Cada fila en la matriz de confusión representa una clase real, mientras que cada columna representa una clase predicha.
Tomemos un ejemplo donde la columna objetivo tiene categorías únicas llamadas “A” y “B”. Llamaremos no-A a B aquí.

Esto es lo que se verá una matriz de confusión típica.
TN, FP, FN y TP significan verdadero negativo, falso positivo, falso negativo y verdadero positivo, respectivamente. Ahora entendamos qué significan estos términos.
Verdadero negativo (TN) proporciona el recuento de valores de características negativas (no-A) que se predijeron correctamente como negativos.
Falso positivo (FP) proporciona el recuento de valores de características negativas (no-A) que se predijeron incorrectamente como positivos.
Falso negativo (FN) proporciona el recuento de valores de características positivas (A) que se predijeron incorrectamente como negativos.
Verdadero positivo (TP) proporciona el recuento de valores de características positivas (A) que se predijeron correctamente como negativos.
Podemos considerar un clasificador como perfecto cuando:
- FP = FN = 0
- TP ≥ 0 y TN ≥ 0
En otras palabras, la matriz de confusión de un clasificador perfecto solo tendría valores no nulos en su diagonal principal.
La matriz de confusión te brindará mucha información sobre el desempeño del modelo. Además, es una matriz y, por lo tanto, un poco difícil de entender de un solo vistazo. Por lo tanto, nos gustaría tener una métrica más concisa para medir el desempeño de nuestro modelo.
Precisión, Recuperación y Puntuación F1
La precisión y la recuperación nos brindan métricas concisas para medir el rendimiento de un modelo.
La precisión se puede considerar como la exactitud de las predicciones positivas. Uno puede encontrar fácilmente la precisión al observar la matriz de confusión.
Además, la recuperación se puede encontrar tomando la proporción entre la cantidad de observaciones positivas predichas correctamente y el número total de observaciones positivas.
La recuperación también tiene otros nombres como sensibilidad o tasa de verdaderos positivos.
A menudo es conveniente combinar la precisión y la recuperación en una sola métrica llamada puntuación F1, especialmente si se desea una forma sencilla de comparar dos clasificadores.
La media armónica de la precisión y la recuperación se llama puntuación F1.
En general, la media armónica dará más peso a un valor más bajo. Por eso, el clasificador obtendrá una puntuación F1 alta si tanto la precisión como la recuperación son altas.
Pero esto no siempre será el caso. En algunos casos, es posible que se necesite una precisión más alta y una recuperación más baja, y en otros casos, es posible que se necesite una precisión más baja y una recuperación más alta. Esto depende de la tarea en cuestión. Veamos dos ejemplos para entender esto.
Ejemplo 1:
Si entrenaste un clasificador para detectar videos seguros para niños. Entonces, para este clasificador, está bien si algunos de los videos seguros se predicen como no seguros. Pero el número de veces que se predice un video no seguro como seguro debe ser lo más bajo posible. Esto implica que debemos tener condiciones estrictas para este clasificador, con un alto FN (falso negativo) y un bajo FP (falso positivo).
Un alto FN implica un valor de recuperación bajo y un bajo FP implica un valor de precisión alto.
Ejemplo 2:
Supongamos que entrenas un clasificador para detectar a un ladrón en una cámara de vigilancia. Entonces, en este caso, está bien si se predice a una persona inocente como ladrón (moralmente, esta no es la forma correcta, pero considera solo el contexto de aprendizaje automático aquí). Pero el número de veces que se predice a un ladrón como una persona inocente debe ser lo más bajo posible. Esto implica que debemos tener condiciones estrictas para este clasificador, con un bajo FN y un alto FP.
Un bajo FN implica un valor de recuperación alto y un alto FP implica una precisión baja.
Volviendo al caso de alta recuperación y alta precisión. Desafortunadamente, esto no es posible en escenarios reales. Obtendremos alta recuperación y baja precisión o baja recuperación y alta precisión.
En este caso, intentaremos analizar la curva precisión-recuperación y seleccionar el punto en el gráfico donde la precisión y la recuperación sean ambas bastante altas según tu tarea.

Así es como se vería una curva típica de precisión-recuperación. Al observar el gráfico, podemos encontrar el punto donde la recuperación = 0.65 y la precisión = 0.75. Con esto, obtenemos un valor bastante alto tanto para la precisión como para la recuperación.
Curva de característica de operación del receptor (ROC)
La curva ROC se utiliza como una métrica para el problema de clasificación binaria. La curva ROC representa la tasa de verdaderos positivos (es decir, recuperación) frente a la tasa de falsos positivos.
Así es como se verá una curva ROC típica.
La tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) se pueden encontrar utilizando las siguientes fórmulas.
La línea punteada representa la curva ROC de un modelo de clasificación puramente aleatorio; un buen clasificador siempre se mantiene lo más alejado posible de esa línea (hacia la esquina superior izquierda).
Una forma de saber qué tan alejada está la curva ROC de nuestro modelo de la curva ROC del modelo aleatorio es encontrar el área bajo la curva. Si el área bajo la curva ROC de nuestro modelo es igual a 1, entonces está tan alejado como podría estar de la curva ROC del modelo aleatorio. Por lo tanto, en este caso, nuestro modelo se podría considerar un modelo perfecto. Un modelo con un área mayor bajo la curva ROC será un mejor modelo.
El área bajo la curva ROC se puede utilizar para comparar dos clasificadores. Un clasificador con un área mayor bajo su curva ROC será un mejor modelo en términos de rendimiento.
¿Cuándo usar una curva de precisión-recall y cuándo usar una curva ROC?
Como regla general, se debe preferir una curva de precisión-recall cuando la clase positiva es rara o cuando le importa más los falsos positivos que los falsos negativos. De lo contrario, utilice la curva ROC.
Por ejemplo, si estamos estudiando una infección de una enfermedad rara, entonces obtendríamos la clase positiva rara. En este caso, la curva de precisión-recall sería la mejor opción como medida de rendimiento.
Lecturas adicionales:
Documentación de scikit-learn
Libro llamado “Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow”
(1527) ¡La matriz NO CONFUSIÓN! // ¿Qué es la matriz de confusión? // Explicación visual de la matriz de confusión – YouTube
(1527) ¡Nunca olvides de nuevo! // Precisión vs Recall con un ejemplo claro de precisión y recall – YouTube
Conclusión
Espero que hayas disfrutado este artículo. Sígueme en VoAGI para leer más artículos como este.
Conéctate conmigo en
Sitio web
Envíame un correo a [email protected]