să începem prin definirea a ceea ce se înțelege prin clasificare, clasificarea este procesul de încercare de a atribui ceva unuia dintre grupurile disponibile. Este posibil să aveți 2 grupuri (clasificare binară) sau mai mult de 2 grupuri (clasificare Multi-clasă).
algoritmi de clasificare include: (regresie logistică, K-cel mai apropiat vecin, suport Vector mașină, și Bayes naiv…etc)
pentru un om de știință de date este foarte important să vă asigurați cât de bun este modelul de clasificare. Există câteva modalități posibile celebre de a vă evalua modelul. Acestea pot fi enumerate după cum urmează:
matrice de confuzie — poate fi calculată cu ușurință folosind implementarea Bibliotecii Scikit-Learn. Trebuie doar să-i alimentați un vector care conține predicțiile variabilei dvs. dependente y ^ și un vector al valorilor reale ale variabilei dvs. dependente y
există 2 abordări pentru a analiza graficul anterior:
în primul rând —
calculați zona sub curba modelului Perfect (aP)
calculați zona sub curba modelului Perfect (ar)
calculați rata de precizie(AR) = AR/ aP; ca (ar)~1 (cu atât mai bine este modelul dvs.) și ca (AR)~0 (cu atât mai rău este modelul dvs.)
În al doilea rând —
desenați o linie din punctul de 50% 50.000) în axa totală contactată până la curba capacului modelului
apoi din acel punct de intersecție, proiectați-l pe axa achiziționată
această valoare x% reprezintă cât de bun este modelul dvs:
dacă X < 60% /(6000) atunci aveți un model de gunoi
Dacă 60% < x < 70% /(7000) atunci aveți un model slab
dacă 70% < x < 80% /(8000) atunci aveți un model bun
dacă 80% < x < 90%/ (9000) atunci aveți un model foarte bun
dacă 90% < x < 100% / (10.000) atunci modelul dvs. este prea bun pentru a fi adevărat! ceea ce vreau să spun este că, acest lucru se întâmplă de obicei din cauza Overfitting, care nu este cu siguranta un lucru bun ca modelul dvs. va fi bun în clasificarea numai datele pe care este instruit pe, dar foarte săraci cu noi instanțe nevăzute.