Modelos de clasificación Evaluación de rendimiento-Curva de capitalización

Comencemos definiendo lo que se entiende por Clasificación, la clasificación es el proceso de intentar asignar algo a uno de los grupos disponibles. Puede tener 2 grupos (Clasificación Binaria) o más de 2 grupos (Clasificación Multiclase).

Los algoritmos de clasificación incluyen: (Regresión Logística, K-Vecino más Cercano, Máquina de Vectores de Soporte y Bayes Ingenuos etc etc.)

Para un científico de datos, es realmente importante asegurarse de lo bueno que es su modelo de clasificación. Hay algunas formas famosas de evaluar su modelo. Se pueden enumerar de la siguiente manera:

  1. Matriz de confusión-Se puede calcular fácilmente utilizando la implementación de la Biblioteca Scikit-Learn. Sólo tienes que alimentar a es un vector que contiene las predicciones de la variable dependiente y ^ y un vector de los valores reales de la variable dependiente y

scikit-learn matriz de confusión del módulo

Ahora después de haber calculado la matriz de confusión que, va a ser un 2*2 matriz para cualquier problema de clasificación binaria, la matriz resultante sería como este

confusion matrix

A confusion matrix consists of 4 values which are very valuable to know for every data scientist:

  1. Falso Positivo (FP) — instancias que se clasifican incorrectamente como instancias de Clase Positivas (0,1) = 5
  2. Falso negativo (FN) — instancias que se clasifican incorrectamente como instancias de Clase Negativas (1,0) = 10
  3. Verdadero Positivo (TP) — instancias que se clasifican correctamente como instancias de Clase Positivas (1,1) = 50
  4. Verdadero Negativo (TN) — instancias que se clasifican correctamente como instancias de Clase Negativas (0,0) = 35
  5. /li>

Instancias totales del conjunto de datos (instancias de entrenamiento + pruebas) = 5+10+50+35 = 100

Ahora, podemos calcular 2 porcentajes importantes:

1-Tasa de precisión = Correcta / total = (50+35)/ 100 = 85%

2-Tasa de error = Incorrecto / total = (5+10)/ 100 = 15%

Ahora, debo celebrar después de construir un clasificador de este tipo, tiene una tasa de precisión tan buena, or ¿o debería ?!

Veamos, por favor síganme en el siguiente escenario » Usted es un científico de datos que trabaja en un banco y ha construido un modelo de clasificación para clasificar transacciones fraudulentas y no fraudulentas, desea evaluar su modelo por lo que decidió calcular la matriz de confusión y ese fue el resultado:»

matriz de confusión de detección de Fraude

Mediante el análisis de la matriz de confusión, podemos decir que tenemos una muy buena clasificador con Exactitud la tasa de = 9,800/ 10,000 = 98%

Pero Los datos científico tiene una muy extraña idea de que él quiere probar; La idea es evitar que el clasificador clasifique cualquiera de las transacciones como fraude (clase positiva ‘1’) luego, calculó la nueva matriz de confusión y fue la siguiente:

La tasa de precisión del clasificador = 9.850 / 10.000 = 98,5%, lo que significa que hay un aumento del 0,5% en la tasa de precisión, aunque el clasificador no funciona correctamente.

Y eso se llama Trampa de precisión, por lo que definitivamente decimos que la tasa de precisión de medición no es suficiente para responder a la pregunta » ¿Qué tan bueno es su clasificador?!’

La solución es probar otro método de medición que es

2. Curva de Perfil de precisión acumulativa (CAP): es un método más robusto para ayudar a nuestro modelo de máquina. Para entender la intuición detrás de esto, tienes que seguirme en los siguientes escenarios:

Escenario # 1-Imagine que usted, como científico de datos, trabaja en una empresa que desea promocionar su nuevo producto, por lo que enviará un correo electrónico con su oferta a todos los clientes y, por lo general, el 10% de las respuestas de los clientes y realmente compra el producto, por lo que piensan que ese será el caso para este momento y ese escenario se llama Escenario aleatorio.

Escenario#2 — Todavía trabaja en la misma empresa, pero esta vez decidió hacerlo de una forma más sistemática:

  1. Inspeccionar sus datos históricos y llevar a un grupo de clientes que en realidad compró la oferta y tratar de extraer de los datos
  2. Medir los factores y tratar de descubrir cuál de ellos afecta el número de productos Comprados, o en otras palabras, ajuste los datos a un modelo de Regresión Logística.
  3. Haga una predicción de qué clientes tienen más probabilidades de comprar el producto.
  4. Entonces dirígete especialmente a aquellas personas que predijiste que tienen más probabilidades de comprar el producto.
  5. A continuación, midiendo la respuesta de los grupos objetivo representados en esa curva «Curva de TAPA».

Definitivamente podemos notar la mejora; cuando contactaste a 20,000 clientes específicos, obtuviste aproximadamente 5,000 respuestas positivas, mientras que en el escenario#1 al contactar con el mismo número de clientes, solo obtuviste 2,000 respuestas positivas.

Así, la idea aquí es comparar su modelo al azar escenario y se puede llevar al siguiente nivel mediante la construcción de otro modelo tal vez una Máquina de Soporte Vectorial (SVM)/ Núcleo SVM modelo para comparar con su actual modelo de regresión logística.

Pero, ¿Cómo analizar el gráfico resultante ?

Cuanto mejor sea su modelo, mayor será el área entre su curva de TAPA y la línea recta del escenario aleatorio.

Hipotéticamente podemos dibujar el llamado Modelo Perfecto que representa un modelo que es imposible de construir a menos que tenga algún tipo de Bola de Cristal . Muestra que al enviar la oferta a 10,000 posibles clientes, obtuvo una respuesta positiva perfecta donde todas las personas contactadas compraron el producto.

Trazar un modelo hipotético de este tipo nos ayudará como referencia para evaluar las curvas de CAP de sus modelos.

Hay 2 métodos para analizar el gráfico anterior:

Primero —

  1. Calcular el área bajo la Curva del Modelo Perfecto (aP)
  2. Calcular el área bajo la Curva del Modelo Perfecto (aR)
  3. Calcular la tasa de precisión(AR) = aR/ aP; como (AR)~1 (Cuanto mejor sea su modelo) y como (AR)~0 (Cuanto peor sea su modelo)

Segundo —

  1. Dibujar una línea desde el punto del 50% (50,000) en el eje Total Contactado hasta la Curva de tapa del modelo
  2. Luego, desde ese punto de intersección, Proyéctelo al eje comprado
  3. Este valor X% representa lo bueno que es su modelo:
  • Si X < 60% /(6000) entonces usted tiene una basura de modelo
  • Si el 60% < X < 70% /(7000), entonces usted tiene un modelo pobre
  • Si el 70% < X < 80% /(8000) entonces usted tiene un buen modelo
  • Si el 80% < X < 90%/ (9000), entonces usted tiene una muy buena modelo
  • Si el 90% < X < 100% / (10,000) a continuación, el modelo es demasiado bueno para ser verdad! lo que quiero decir es que, esto generalmente sucede debido al sobreajuste, lo que definitivamente no es bueno, ya que su modelo será bueno para clasificar solo los datos en los que está entrenado, pero muy pobre con nuevas instancias invisibles.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.