Modèles de classification Évaluation de la performance – Courbe de CAP

Commençons par définir ce que l’on entend par Classification, la classification est le processus consistant à essayer d’attribuer quelque chose à l’un des groupes disponibles. Vous pouvez avoir 2 groupes (Classification binaire) ou plus de 2 groupes (Classification Multi-classes).

Les algorithmes de classification comprennent: (Régression Logistique, K-Voisin le plus proche, Machine Vectorielle de Support et Bayes Naïvesetc etc)

Pour un scientifique des données, il est vraiment important de s’assurer de la qualité de votre modèle de classification. Il existe des moyens célèbres d’évaluer votre modèle. Ils peuvent être listés comme suit:

  1. Matrice de confusion — Elle peut être calculée facilement à l’aide de l’implémentation de la bibliothèque Scikit-Learn. Il vous suffit de lui alimenter un vecteur qui contient les prédictions de votre variable dépendante y^ et un vecteur des valeurs réelles de votre variable dépendante y

module de matrice de confusion scikit-learn

Maintenant, après avoir calculé votre matrice de confusion qui sera une matrice 2 * 2 pour tout problème de classification binaire, la matrice résultante serait comme ceci

confusion matrix

A confusion matrix consists of 4 values which are very valuable to know for every data scientist:

  1. Faux Positif (FP) — instances qui sont incorrectement classées comme Instances de Classe Positives (0,1) = 5
  2. Faux négatif (FN) — instances qui sont incorrectement classées comme instances de Classe Négatives (1,0) = 10
  3. Vrai Positif (TP) — instances qui sont correctement classées comme instances de Classe Positives (1,1) = 50
  4. Vrai Négatif (TN) — instances qui sont correctement classées comme instances de Classe Négatives (0,0) = 35

Nombre total d’instances de l’ensemble de données (instances d’entraînement + instances de test) = 5+10+50+35 = 100

Maintenant, nous pouvons calculer 2 pourcentages importants:

1 – Taux de précision = Correct / total = (50+35)/ 100 = 85%

2 – Taux d’erreur = Incorrect / total = (5+10)/ 100 = 15%

Maintenant, je devrais célébrer après avoir construit un tel classificateur, il a un si bon taux de précision, Should ou devrais-je?!

Voyons, suivez-moi dans le scénario suivant « Vous êtes un data scientist qui travaille dans une banque et a construit un modèle de classification pour classer les transactions frauduleuses et non frauduleuses, vous souhaitez évaluer votre modèle, vous avez donc décidé de calculer la matrice de confusion et c’est le résultat: »

matrice de confusion — Détection de fraude

En analysant la matrice de confusion, nous pouvons dire que nous avons un assez bon classificateur avec un taux de précision = 9,800 / 10,000 = 98%

Mais Le data scientist a une idée assez étrange qu’il veut essayer; L’idée est d’empêcher le classificateur de classer l’une des transactions comme fraude (classe positive ‘1’) puis, il a calculé la nouvelle matrice de confusion et c’était comme suit :

Le taux de précision du classificateur = 9,850 / 10,000 = 98,5%, ce qui signifie qu’il y a une augmentation de 0,5% du taux de précision bien que le classificateur ne fonctionne pas correctement!

Et c’est ce qu’on appelle un piège de précision, nous disons donc définitivement que le taux de précision de mesure n’est pas suffisant pour répondre à la question « Quelle est la qualité de votre classificateur?!’

La solution consiste à essayer une autre méthode de mesure qui est

2. Courbe de profil de précision cumulative (CAP) — C’est une méthode plus robuste pour aider notre modèle de machine. Pour comprendre l’intuition derrière cela, Vous devez me suivre dans les scénarios suivants:

Scénario #1 – Imaginez que vous, en tant que data scientist, travaillez dans une entreprise qui souhaite promouvoir son nouveau produit afin qu’elle envoie un e-mail avec son offre à tous les clients et généralement à 10% des réponses des clients et qu’elle achète réellement le produit pour que ce soit le cas pour cette fois et ce scénario s’appelle le scénario aléatoire.

Scénario #2 — Vous travaillez toujours dans la même entreprise mais cette fois, vous avez décidé de le faire de manière plus systématique:

  1. Inspectez vos données historiques et prenez un groupe de clients qui ont réellement acheté l’offre et essayez d’extraire ces informations
  2. Mesurez ces facteurs et essayez de découvrir lequel d’entre eux affecte le nombre de produits Achetés ou, en d’autres termes, ajustez les données à un modèle de régression logistique.
  3. Faites une prédiction des clients les plus susceptibles d’acheter le produit.
  4. Ciblez ensuite spécialement les personnes que vous avez prédites plus susceptibles d’acheter le produit.
  5. Ensuite en mesurant la réponse des groupes ciblés représentés dans cette courbe ‘Courbe de CAP’.

Nous pouvons certainement remarquer l’amélioration; lorsque vous avez contacté 20 000 clients ciblés, vous avez obtenu environ 5 000 réponses positives alors que dans le scénario #1, en contactant le même nombre de clients, vous n’avez obtenu que 2 000 réponses positives.

Donc, l’idée ici est de comparer votre modèle au scénario aléatoire et vous pouvez le faire passer au niveau suivant en construisant un autre modèle peut-être un modèle SVM (Support Vector Machine) / Kernel SVM pour le comparer avec votre modèle de régression logistique actuel.

Mais, Comment analyser le graphique résultant?

Plus votre modèle est bon, plus la zone entre sa courbe de PLAFOND et la ligne droite du scénario aléatoire sera grande.

Hypothétiquement, nous pouvons dessiner le soi-disant Modèle Parfait qui représente un modèle qui est un peu impossible à construire à moins d’avoir une sorte de Boule de cristal. Cela montre que lors de l’envoi de l’offre à 10 000 clients possibles, vous avez obtenu une réponse positive parfaite où toutes les personnes contactées ont acheté le produit.

Tracer un tel modèle hypothétique nous aidera comme référence à évaluer les courbes de PLAFOND de vos modèles.

Il existe 2 approches pour analyser le graphique précédent:

D’abord —

  1. Calculer l’aire sous la Courbe du Modèle Parfait (aP)
  2. Calculer l’aire sous la Courbe du Modèle Parfait (aR)
  3. Calculer le taux de précision (AR) = aR /aP; as(AR) ~ 1 (Le meilleur est votre modèle) et as(AR) ~ 0 (Le pire est votre modèle)

Deuxièmement —

  1. Tracez une ligne à partir du point de 50% ( 50 000) dans l’axe total contacté jusqu’à la courbe de PLAFOND du modèle
  2. Puis à partir de ce point d’intersection, Projetez-le sur l’axe acheté
  3. Cette valeur X% représente la qualité de votre modèle:
  • Si X < 60%/(6000) alors vous avez un modèle d’ordures
  • Si 60% < X < 70%/(7000) alors vous avez un modèle médiocre
  • Si 70% < X < 80%/(8000) alors vous avez un bon modèle
  • Si 80% < X <90%/(9000)alors vous avez un très bon modèle
  • Si 90% < X < 100%/(10 000) alors votre modèle est trop beau pour être vrai! ce que je veux dire, c’est que cela se produit généralement en raison d’un surajustement, ce qui n’est certainement pas une bonne chose car votre modèle ne classera que les données sur lesquelles il est formé, mais très pauvre avec de nouvelles instances invisibles.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.