Klassificeringsmodeller prestandautvärdering-CAP Curve

låt oss börja med att definiera vad som menas med klassificering, klassificering är processen att försöka tilldela något till en av de tillgängliga grupperna. Du kan ha 2 grupper (binär klassificering) eller mer än 2 grupper (klassificering i flera klasser).

klassificeringsalgoritmer inkluderar: (logistisk Regression, K-närmaste granne, stödvektormaskin och naiva Bayes…etc)

För en datavetenskapare är det verkligen viktigt att se till hur bra din klassificeringsmodell är. Det finns några kända möjliga sätt att utvärdera din modell. De kan listas enligt följande:

Förvirringsmatris — det kan enkelt beräknas med hjälp av Scikit-Learn-bibliotekets implementering. Du måste bara mata den en vektor som innehåller förutsägelserna för din beroende variabel y ^ och en vektor av de faktiska värdena för din beroende variabel y

scikit-lär dig förvirringsmatrismodul

nu när du har beräknat din förvirringsmatris som kommer att vara en 2*2-matris för något binärt klassificeringsproblem, skulle den resulterande matrisen vara så här

A confusion matrix consists of 4 values which are very valuable to know for every data scientist:

False Positive (FP) — instanser som felaktigt klassificeras som positiva klassinstanser (0,1) = 5
False negative (FN) — instanser som felaktigt klassificeras som negativa Klassinstanser (1,0) = 10
True Positive (TP) — instanser som korrekt klassificeras som positiva Klassinstanser (1,1) = 50
True Negative (TN) — instanser som korrekt klassificeras som negativa klassinstanser (0,0) = 35

totala instanser av datauppsättningen (utbildning + testinstanser) = 5+10+50+35 = 100

Nu kan vi beräkna 2 viktiga procentsatser:

1 – noggrannhet = korrekt / totalt = (50+35)/ 100 = 85%

2 – felfrekvens = felaktig / totalt = (5+10)/ 100 = 15%

Nu ska jag fira efter att ha byggt en sådan klassificerare har den en så bra noggrannhet, …eller ska jag ?!

Låt oss se, följ mig i följande scenario ”Du är en datavetare som arbetar i en bank och har byggt en klassificeringsmodell för att klassificera bedrägerier och transaktioner utan bedrägeri, du vill utvärdera din modell så att du bestämde dig för att beräkna förvirringsmatrisen och det var resultatet:”

förvirringsmatris — upptäckt av bedrägeri

genom att analysera förvirringsmatrisen kan vi säga att vi har en ganska bra klassificerare med noggrannhetsgrad = 9,800/10,000 = 98%

men datavetenskaparen har en ganska konstig uppfattning att han vill försöka; Tanken är att stoppa klassificeraren från att klassificera någon av transaktionerna som bedrägeri (positiv klass ’1’) sedan beräknade han den nya förvirringsmatrisen och det var som följande:

KGSAU

Klassificeringsmodeller prestandautvärdering-CAP Curve

Lämna ett svar Avbryt svar