Klassifikationsmodelle Leistungsbewertung – CAP-Kurve

Beginnen wir mit der Definition dessen, was unter Klassifikation zu verstehen ist. Sie können 2 Gruppen (binäre Klassifikation) oder mehr als 2 Gruppen (Mehrklassenklassifikation) haben.

Klassifizierungsalgorithmen umfassen: (Logistische Regression, K-Nearest Neighbor, Support Vector Machine und Naive Bayes …usw.)

Für einen Datenwissenschaftler ist es wirklich wichtig, sicherzustellen, wie gut Ihr Klassifizierungsmodell ist. Es gibt einige bekannte Möglichkeiten, Ihr Modell zu bewerten. Sie können wie folgt aufgelistet werden:

Verwirrungsmatrix — Sie kann einfach mit der Implementierung der Scikit-Learn-Bibliothek berechnet werden. Sie müssen ihm nur einen Vektor zuführen, der die Vorhersagen Ihrer abhängigen Variablen y ^ und einen Vektor der tatsächlichen Werte Ihrer abhängigen Variablen y

scikit-learn confusion matrix module

Nachdem Sie nun Ihre Verwirrungsmatrix berechnet haben, die eine 2*2-Matrix für jedes binäre Klassifizierungsproblem sein wird, wäre die resultierende Matrix wie folgt:

A confusion matrix consists of 4 values which are very valuable to know for every data scientist:

Falsch Positiv (FP) — Instanzen, die fälschlicherweise als positive Klasseninstanzen klassifiziert sind (0,1) = 5
Falsch negativ (FN) — Instanzen, die fälschlicherweise als negative Klasseninstanzen klassifiziert sind (1,0) = 10
Wahr Positiv (TP) — Instanzen, die korrekt als positive Klasseninstanzen klassifiziert sind (1,1) = 50
Wahr Negativ (TN) — Instanzen, die korrekt als negative Klasseninstanzen klassifiziert sind (0,0) = 35

Gesamtinstanzen des Datensatzes (Training + Testinstanzen) = 5+10+50+35 = 100

Jetzt können wir 2 wichtige Prozentsätze berechnen:

1- Genauigkeitsrate = Richtig/ Gesamt = (50+35)/ 100 = 85%

2- Fehlerquote = Falsch/ gesamt = (5+10)/ 100 = 15%

Nun, ich sollte feiern, nachdem ich einen solchen Klassifikator gebaut habe, der eine so gute Genauigkeitsrate hat, … oder sollte ich?!

Mal sehen, bitte folgen Sie mir im folgenden Szenario „Sie sind ein Datenwissenschaftler, der in einer Bank arbeitet und ein Klassifizierungsmodell zur Klassifizierung von Betrugs- und Nichtbetrugstransaktionen erstellt hat, Sie möchten Ihr Modell auswerten, also haben Sie sich entschieden, die Verwirrungsmatrix zu berechnen, und das war das Ergebnis:“

Durch die Analyse der Verwirrungsmatrix können wir sagen, dass wir einen ziemlich guten Klassifikator mit einer Genauigkeitsrate von = 9.800 / 10.000 = 98% haben

Aber Der Datenwissenschaftler hat eine ziemlich seltsame Idee, die er ausprobieren möchte; Die Idee ist, den Klassifikator daran zu hindern, eine der Transaktionen als Betrug (positive Klasse ‚1‘) zu klassifizieren, dann berechnete er die neue Verwirrungsmatrix und es war wie folgt:

Die Genauigkeitsrate des Klassifikators = 9.850 / 10.000 = 98,5%, was bedeutet, dass die Genauigkeitsrate um 0,5% erhöht wird, obwohl der Klassifikator nicht richtig funktioniert!

Und das nennt man Genauigkeit, also sagen wir definitiv, dass die Messgenauigkeit nicht ausreicht, um die Frage zu beantworten: Wie gut ist Ihr Klassifikator?!‘

Die Lösung besteht darin, eine andere Messmethode zu versuchen, die

2 ist. Kurve des kumulativen Genauigkeitsprofils (CAP) – Dies ist eine robustere Methode zur Unterstützung unseres Maschinenmodells. Um die Intuition dahinter zu verstehen, müssen Sie mir in den folgenden Szenarien folgen:Szenario 1 – Stellen Sie sich vor, Sie als Datenwissenschaftler arbeiten in einem Unternehmen, das für sein neues Produkt werben möchte, damit es eine E-Mail mit seinem Angebot an alle Kunden sendet und normalerweise 10% der Kundenantworten und tatsächlich kauft das Produkt, damit sie wissen, dass dies für diese Zeit der Fall sein wird und dieses Szenario als zufälliges Szenario bezeichnet wird.

KGSAU

Klassifikationsmodelle Leistungsbewertung – CAP-Kurve

Schreibe einen Kommentar Antworten abbrechen