Matriz de confusión en el aprendizaje automático con EJEMPLO

¿Qué es Matriz de confusión?

Una matriz de confusión es una técnica de medición del rendimiento para la clasificación del aprendizaje automático. Es una especie de tabla que le ayuda a conocer el desempeño del modelo de clasificación en un conjunto de datos de prueba para que se conozcan los valores reales. El término matriz de confusión en sí es muy simple, pero su terminología relacionada puede ser un poco confusa. A continuación, se ofrece una explicación sencilla para esta técnica.

En este tutorial, aprenderá,

¿Qué es la matriz de confusión?
Cuatro resultados de la matriz de confusión
Ejemplo de matriz de confusión:
Cómo calcular una matriz de confusión
Otros términos importantes que utilizan una matriz de confusión
¿Por qué necesitas Matriz de confusión?

Cuatro resultados de la matriz de confusión

La matriz de confusión visualiza la precisión de un clasificador comparando las clases reales y previstas. La matriz de confusión binaria se compone de cuadrados:

TP: Positivo verdadero: valores predichos correctamente predichos como positivo real
FP: Los valores predichos predecían incorrectamente un positivo real. es decir, valores negativos predichos como positivos
FN: Falso Negativo: Valores positivos predichos como negativos
TN: Negativo verdadero: valores predichos correctamente predichos como un negativo real

Puede calcular la prueba de precisión a partir de la matriz de confusión:

Ejemplo de matriz de confusión:

Confusion Matrix es un método útil de aprendizaje automático que le permite medir la recuperación, la precisión, la exactitud y la curva AUC-ROC. A continuación se muestra un ejemplo para conocer los términos Verdadero Positivo, Verdadero Negativo, Falso Negativo y Verdadero Negativo.

Verdadero positivo:

Proyectó positivo y resultó ser cierto. Por ejemplo, habías predicho que Francia ganaría la copa del mundo y la ganó.

Verdadero negativo:

Cuando predijiste negativo, y es cierto. Había predicho que Inglaterra no ganaría y perdió.

Falso positivo:

Tu predicción es positiva y falsa.

Había predicho que Inglaterra ganaría, pero perdió.

Falso negativo:

Tu predicción es negativa y el resultado también es falso.

Había predicho que Francia no ganaría, pero ganó.

Debe recordar que describimos los valores predichos como Verdadero o Falso o Positivo y Negativo.

Cómo calcular una matriz de confusión

A continuación, se muestra el proceso paso a paso para calcular una matriz de confusión en la minería de datos.

Paso 1) Primero, debe probar el conjunto de datos con sus valores de resultado esperados.
Paso 2) Predecir todas las filas del conjunto de datos de prueba.
Paso 3) Calcule las predicciones y los resultados esperados:

El total de predicciones correctas de cada clase.
El total de predicciones incorrectas de cada clase.

Después de eso, estos números se organizan en los métodos que se indican a continuación:

Cada fila de la matriz se vincula a una clase predicha.
Cada columna de la matriz se corresponde con una clase real.
Los recuentos totales de clasificación correcta e incorrecta se ingresan en la tabla.
La suma de las predicciones correctas para una clase se incluye en la columna predicha y en la fila esperada para ese valor de clase.
La suma de las predicciones incorrectas para una clase entra en la fila esperada para ese valor de clase y la columna de predicción para ese valor de clase específico.

Otros términos importantes que utilizan una matriz de confusión

Valor predictivo positivo (PVV): se acerca mucho a la precisión. Una diferencia significativa entre los dos términos es que PVV considera la prevalencia. En la situación en la que las clases están perfectamente equilibradas, el valor predictivo positivo es el mismo que la precisión.

Tasa de error nulo: este término se utiliza para definir cuántas veces su predicción sería incorrecta si pudiera predecir la clase mayoritaria. Puede considerarlo como una métrica de referencia para comparar su clasificador.

Puntuación F: La puntuación F1 es una puntuación media ponderada del verdadero positivo (recuerdo) y la precisión.

Curva Roc: La curva Roc muestra las tasas de verdaderos positivos contra la tasa de falsos positivos en varios puntos de corte. También demuestra una compensación entre la sensibilidad (recuerdo y especificidad o la tasa negativa verdadera).
Precisión: la métrica de precisión muestra la precisión de la clase positiva. Mide la probabilidad de que la predicción de la clase positiva sea correcta.

La puntuación máxima es 1 cuando el clasificador clasifica perfectamente todos los valores positivos. La precisión por sí sola no es muy útil porque ignora la clase negativa. La métrica suele estar emparejada con la métrica de recuperación. El recuerdo también se denomina sensibilidad o tasa de verdaderos positivos.

Sensibilidad : la sensibilidad calcula la proporción de clases positivas detectadas correctamente. Esta métrica da qué tan bueno es el modelo para reconocer una clase positiva.

¿Por qué necesitas Matriz de confusión?

Estos son los pros y los beneficios de usar una matriz de confusión.

Muestra cómo se confunde cualquier modelo de clasificación cuando hace predicciones.
La matriz de confusión no solo le da una idea de los errores que comete su clasificador, sino también de los tipos de errores que comete.
Este desglose le ayuda a superar la limitación de utilizar únicamente la precisión de la clasificación.
Cada columna de la matriz de confusión representa las instancias de esa clase predicha.
Cada fila de la matriz de confusión representa las instancias de la clase real.
Proporciona información no solo sobre los errores que comete un clasificador, sino también sobre los errores que comete.