Comencemos definiendo lo que se entiende por Clasificación, la clasificación es el proceso de intentar asignar algo a uno de los grupos disponibles. Puede tener 2 grupos (Clasificación Binaria) o más de 2 grupos (Clasificación Multiclase).
Los algoritmos de clasificación incluyen: (Regresión Logística, K-Vecino más Cercano, Máquina de Vectores de Soporte y Bayes Ingenuos etc etc.)
Para un científico de datos, es realmente importante asegurarse de lo bueno que es su modelo de clasificación. Hay algunas formas famosas de evaluar su modelo. Se pueden enumerar de la siguiente manera:
Matriz de confusión-Se puede calcular fácilmente utilizando la implementación de la Biblioteca Scikit-Learn. Sólo tienes que alimentar a es un vector que contiene las predicciones de la variable dependiente y ^ y un vector de los valores reales de la variable dependiente y
Ahora después de haber calculado la matriz de confusión que, va a ser un 2*2 matriz para cualquier problema de clasificación binaria, la matriz resultante sería como este
A confusion matrix consists of 4 values which are very valuable to know for every data scientist:
Falso Positivo (FP) — instancias que se clasifican incorrectamente como instancias de Clase Positivas (0,1) = 5
Falso negativo (FN) — instancias que se clasifican incorrectamente como instancias de Clase Negativas (1,0) = 10
Verdadero Positivo (TP) — instancias que se clasifican correctamente como instancias de Clase Positivas (1,1) = 50
Verdadero Negativo (TN) — instancias que se clasifican correctamente como instancias de Clase Negativas (0,0) = 35
/li>
Instancias totales del conjunto de datos (instancias de entrenamiento + pruebas) = 5+10+50+35 = 100
1-Tasa de precisión = Correcta / total = (50+35)/ 100 = 85%
2-Tasa de error = Incorrecto / total = (5+10)/ 100 = 15%
Ahora, debo celebrar después de construir un clasificador de este tipo, tiene una tasa de precisión tan buena, or ¿o debería ?!
Veamos, por favor síganme en el siguiente escenario » Usted es un científico de datos que trabaja en un banco y ha construido un modelo de clasificación para clasificar transacciones fraudulentas y no fraudulentas, desea evaluar su modelo por lo que decidió calcular la matriz de confusión y ese fue el resultado:»
Mediante el análisis de la matriz de confusión, podemos decir que tenemos una muy buena clasificador con Exactitud la tasa de = 9,800/ 10,000 = 98%
Pero Los datos científico tiene una muy extraña idea de que él quiere probar; La idea es evitar que el clasificador clasifique cualquiera de las transacciones como fraude (clase positiva ‘1’) luego, calculó la nueva matriz de confusión y fue la siguiente: