modele de clasificare Evaluarea performanței-curba CAP

să începem prin definirea a ceea ce se înțelege prin clasificare, clasificarea este procesul de încercare de a atribui ceva unuia dintre grupurile disponibile. Este posibil să aveți 2 grupuri (clasificare binară) sau mai mult de 2 grupuri (clasificare Multi-clasă).

algoritmi de clasificare include: (regresie logistică, K-cel mai apropiat vecin, suport Vector mașină, și Bayes naiv…etc)

pentru un om de știință de date este foarte important să vă asigurați cât de bun este modelul de clasificare. Există câteva modalități posibile celebre de a vă evalua modelul. Acestea pot fi enumerate după cum urmează:

matrice de confuzie — poate fi calculată cu ușurință folosind implementarea Bibliotecii Scikit-Learn. Trebuie doar să-i alimentați un vector care conține predicțiile variabilei dvs. dependente y ^ și un vector al valorilor reale ale variabilei dvs. dependente y

scikit-learn confusion Matrix module

acum, după ce ați calculat matricea de confuzie care va fi o matrice 2*2 pentru orice problemă de clasificare binară, matricea rezultată ar fi astfel

A confusion matrix consists of 4 values which are very valuable to know for every data scientist:

fals pozitiv (FP) — instanțe care sunt clasificate incorect ca instanțe de clasă pozitivă (0,1) = 5
fals negativ (FN) — instanțe care sunt clasificate incorect ca instanțe de clasă negativă (1,0) = 10
adevărat pozitiv (TP) — instanțe care sunt clasificate corect ca instanțe de clasă pozitivă (1,1) = 50
adevărat negativ (TN) — instanțe care sunt clasificate corect/li>

Total instanțe ale setului de date (instanțe de instruire + testare) = 5+10+50+35 = 100

acum, putem calcula 2 procente importante:

1-Rata de precizie = corectă / totală = (50+35)/ 100 = 85%

2-Rata de eroare = incorectă / totală = (5+10)/ 100 = 15%

acum, ar trebui să sărbătoresc după construirea unui astfel de clasificator are o rată de precizie atât de bună, …sau ar trebui ?!

Să vedem, vă rog să mă urmați în următorul scenariu „sunteți un om de știință de date care lucrează într-o bancă și a construit un model de clasificare pentru a clasifica tranzacțiile de fraudă și non-fraudă, doriți să evaluați modelul dvs., astfel încât ați decis să calculați matricea de confuzie și acesta a fost rezultatul:”

dar, cum să analizăm graficul rezultat ?

cu cât modelul dvs. este mai bun, cu atât va fi mai mare zona dintre curba capacului și linia dreaptă a scenariului aleatoriu.

ipotetic putem desena așa-numitul Model Perfect care reprezintă un model care este un fel de imposibil de construit dacă nu aveți un fel de Glob de cristal . Acesta arată că atunci când trimiteți oferta către 10.000 de clienți posibili, ați primit un răspuns pozitiv perfect în care toți oamenii contactați au cumpărat produsul.

trasarea unui astfel de model ipotetic ne va ajuta ca referință pentru a evalua curbele capac modele.

există 2 abordări pentru a analiza graficul anterior:

în primul rând —

calculați zona sub curba modelului Perfect (aP)
calculați zona sub curba modelului Perfect (ar)
calculați rata de precizie(AR) = AR/ aP; ca (ar)~1 (cu atât mai bine este modelul dvs.) și ca (AR)~0 (cu atât mai rău este modelul dvs.)

În al doilea rând —

desenați o linie din punctul de 50% 50.000) în axa totală contactată până la curba capacului modelului
apoi din acel punct de intersecție, proiectați-l pe axa achiziționată
această valoare x% reprezintă cât de bun este modelul dvs:

dacă X < 60% /(6000) atunci aveți un model de gunoi
Dacă 60% < x < 70% /(7000) atunci aveți un model slab
dacă 70% < x < 80% /(8000) atunci aveți un model bun
dacă 80% < x < 90%/ (9000) atunci aveți un model foarte bun
dacă 90% < x < 100% / (10.000) atunci modelul dvs. este prea bun pentru a fi adevărat! ceea ce vreau să spun este că, acest lucru se întâmplă de obicei din cauza Overfitting, care nu este cu siguranta un lucru bun ca modelul dvs. va fi bun în clasificarea numai datele pe care este instruit pe, dar foarte săraci cu noi instanțe nevăzute.

KGSAU

modele de clasificare Evaluarea performanței-curba CAP

Lasă un răspuns Anulează răspunsul