la oss begynne med å definere Hva Som menes Med Klassifisering, Klassifisering Er prosessen med å prøve å tildele noe til en av de tilgjengelige gruppene. Du kan ha 2 grupper (Binær Klassifisering) eller mer enn 2 grupper (Multi-klasse Klassifisering).
Klassifiseringsalgoritmer inkluderer: (Logistisk Regresjon, K-Nærmeste Nabo, Støttevektormaskin og Naive Bayes…etc)
for en datavitenskapsmann er det veldig viktig å sørge for hvor god klassifikasjonsmodellen din er. Det er noen kjente mulige måter å evaluere modellen på. De kan være oppført som følgende:
- Forvirring Matrix — Det kan beregnes enkelt ved Hjelp Av Scikit-Lær Biblioteket implementering. Du må bare mate den en vektor som inneholder forutsigelsene til din avhengige variabel y ^ og en vektor av de faktiske verdiene til din avhengige variabel y
scenario#2 — du jobber fortsatt i samme selskap, men denne gangen bestemte du deg for å gjøre det på en mer systematisk måte:
- inspiser dine historiske data og ta en gruppe kunder som faktisk kjøpte tilbudet og prøv å trekke ut denne informasjonen
- mål disse faktorene og prøv å oppdage hvilke av dem som påvirker antall kjøpte produkter eller med andre ord passe dataene til en logistisk regresjonsmodell.
- Lag en prediksjon av hvilke kunder som er mer sannsynlig å kjøpe produktet.
- deretter spesielt målrette de menneskene som du spådd er mer sannsynlig å kjøpe produktet.
- deretter ved å måle responsen til den målrettede gruppen representert i den kurven ‘CAP Curve’.
vi definitivt kan merke forbedring; når du kontaktet 20.000 målrettede kunder du fikk om 5000 positive svar der i scenario # 1 ved å kontakte samme antall kunder, du fikk bare 2000 positive svar.
men hvordan analyserer du den resulterende grafen ?
jo bedre modellen din er, desto større blir området mellom KAPPEKURVEN og den tilfeldige scenarioens rette linje.
Hypotetisk kan Vi tegne den Såkalte Perfekte Modellen som representerer en modell som er litt umulig å bygge med mindre du har En Slags Krystallkule . Det viser at når du sender tilbudet til 10.000 mulig kunde du fikk en perfekt positiv respons der alle kontaktet folk kjøpte produktet.
Plotting slik hypotetisk modell vil hjelpe oss som en referanse for å evaluere modeller CAP kurver.
det er 2 tilnærminger for å analysere forrige graf:Beregn området under Den Perfekte Modellkurven (aR)
Andre —
- Tegn en linje fra 50% —punktet (50 000) i den totale kontaktede aksen opp til modellkapselkurven
- og deretter fra det skjæringspunktet, projiser det til Den kjøpte Aksen
- denne x% – verdien representerer hvor god modellen Din er:
- Hvis X < 60% /(6000) så har du en søppelmodell
- Hvis 60% < x < 70% /(7000) så har du en dårlig modell
- hvis 70% < x < 80% /(8000) så har du en god modell
- hvis 80% < x < 90%/ (9000) da har du en veldig god modell
- hvis 90% < x < 100% / (10,000) så er modellen din for god til å være sant! det jeg mener er at dette vanligvis skjer på Grunn Av Overfitting, noe som definitivt ikke er bra, da modellen din vil være god til å klassifisere bare dataene den er trent på, men svært dårlig med nye usynlige tilfeller.