Corrélation entre deux variables discrètes ou catégorielles
D’une manière générale, il existe deux façons différentes de trouver une association entre les variables catégorielles. Un ensemble d’approches repose sur des mesures de distance telles que la distance euclidienne ou la distance de Manhattan, tandis qu’un autre ensemble d’approches couvre diverses mesures statistiques telles que le test du chi carré ou le lambda de Goodman Kruskal, qui a été initialement développé pour analyser les tableaux de contingence. Maintenant, le puriste mathématique pourrait correctement affirmer que les métriques de distance ne peuvent pas être une métrique de corrélation car la corrélation doit être indépendante de l’unité, ce que la distance par définition ne peut pas être. Je suis d’accord avec cet argument et je le soulignerai plus tard, mais pour l’instant je l’inclus car beaucoup de gens utilisent la distance comme proxy pour la corrélation entre les variables catégorielles. De plus, dans certaines situations particulières, il existe une conversion facile entre la corrélation de Pearson et la distance euclidienne.
Ci-dessous, j’énumère quelques mesures communes dans les deux approches, puis je discute de certaines forces et faiblesses relatives des deux approches générales. Ensuite, j’énumère certaines mesures couramment utilisées dans les deux approches et je termine par une brève discussion de leurs mérites relatifs.
Métriques de distance
Bien que le concept de « distance » ne soit souvent pas synonyme de « corrélation », les métriques de distance peuvent néanmoins être utilisées pour calculer la similitude entre les vecteurs, ce qui est conceptuellement similaire à d’autres mesures de corrélation. Il existe de nombreuses autres mesures de distance, et mon intention ici est moins de vous présenter toutes les différentes façons dont la distance entre deux points peut être calculée, et plus d’introduire la notion générale de mesures de distance comme approche pour mesurer la similitude ou la corrélation. J’ai noté dix mesures de distance couramment utilisées ci-dessous à cette fin. Si vous souhaitez en savoir plus sur ces métriques, les définitions et les formules peuvent être trouvées ici.
- Somme de la Distance Absolue
- Somme de la Distance au Carré
- Erreur Moyenne-Absolue
- Distance Euclidienne
- Distance de Manhattan
- Distance d’Échiquier
- Distance de Minkowski
- Distance de Canberra
- Distance Cosinus
- Distance de Hamming
Analyse du Tableau de contingence
En comparant deux variables catégorielles, en comptant les fréquences des catégories, nous pouvons facilement convertir les vecteurs d’origine en tableaux de contingence. Par exemple, imaginez que vous vouliez voir s’il y a une corrélation entre être un homme et obtenir une subvention scientifique (malheureusement, il y a une corrélation, mais c’est une question pour un autre jour). Vos données peuvent avoir deux colonnes dans ce cas — une pour le genre qui serait masculin ou féminin (supposons un monde binaire pour ce cas) et une autre pour la subvention (Oui ou Non). Nous pourrions prendre les données de ces colonnes et les représenter sous forme de tabulation croisée en calculant les fréquences par paires
Les tableaux de contingence ou tableaux croisés affichent la distribution de fréquence multivariée des variables et sont largement utilisés dans la recherche scientifique dans toutes les disciplines. En raison de leur utilisation historique intensive dans les analyses statistiques, une famille de tests a été développée pour déterminer l’importance de la différence entre deux catégories d’une variable par rapport à une autre variable catégorielle. Une approche populaire pour les variables dichotomiques (c’est-à-dire les variables avec seulement deux catégories) est construite sur la distribution du chi carré. Nous ne sommes pas intéressés à tester la signification statistique, mais nous nous intéressons davantage à la taille de l’effet et plus particulièrement à la force de l’association entre les deux variables. Heureusement, plusieurs coefficients ont été définis à cet effet, dont plusieurs qui utilisent la statistique du chi carré. Voici quelques exemples:
- Lambda de Goodman Kruskal
- Phi co-efficace (utilise la statistique du chi au carré)
- V de Cramer (utilise la statistique du chi au carré)
- T de Tschuprow (utilise la statistique du chi au carré)
- Coefficient de contingence C (utilise la statistique du chi au carré)
Forces et faiblesses relatives
Mesures de distance, au moins pour moi, sont plus intuitifs et plus faciles à comprendre. Il est logique que si une variable est parfaitement prédictive d’une autre variable, lorsqu’elle est tracée dans un espace de dimensions élevées, les deux variables se superposent ou sont très proches l’une de l’autre. Étant donné que je crois que les méthodes que l’on utilise pour analyser les données sont facilement explicables pour les non-statisticiens autant que possible, l’utilisation de la distance a un attrait évident. Mais un gros inconvénient des approches reposant sur des métriques de distance est qu’elles dépendent de l’échelle. Si vous mettez votre entrée à l’échelle d’un facteur 10, toute mesure de distance y sera sensible et changera de manière significative. Ce comportement n’est évidemment pas souhaitable pour comprendre la bonté de l’ajustement entre différentes caractéristiques. De plus, les métriques de distance ne sont pas facilement comparables entre des paires de variables avec un nombre différent de catégories. Permettez—moi d’illustrer cela avec un exemple — disons que nous avons 3 colonnes – le genre avec deux catégories (Homme représenté par 0 et Femme représentée par 1), les notes avec trois catégories (Excellent représenté par 2, Bon représenté par 1 et Pauvre représenté par 0) et l’admission au collège (Oui représenté par 1 et Non représenté par 0). Nous voulons comparer si le sexe est plus corrélé à l’admission au collège ou si les notes sont plus corrélées à l’admission au collège. Depuis, les valeurs des notes varient de tandis que le sexe varie de la distance entre l’admission au collège (plage—) et les notes seront artificiellement gonflées par rapport à la distance entre l’admission au collège et le sexe. Ce problème peut être facilement éliminé si vous encodez à chaud toutes les variables de votre matrice avant de calculer des corrélations de sorte que chaque variable catégorielle n’aura que deux valeurs — Oui (1) ou Non (0).
Un autre inconvénient potentiellement plus important de l’utilisation des métriques de distance est qu’il n’y a parfois pas de conversion simple d’une métrique de distance en un coefficient d’ajustement qui est ce qui nous intéresse le plus pour les besoins de cet article de blog. Je dois noter ici que si vous mettez à l’échelle et centrez vos données continues, la distance euclidienne pourrait toujours être utilisée car dans ces cas, il y a une conversion facile de la distance euclidienne en corrélation de Pearson. Bien sûr, l’autre solution que l’on pourrait essayer serait d’utiliser des critères de coupure différents pour les corrélations entre deux variables discrètes par rapport à deux variables continues. Mais, selon moi, ce n’est pas idéal car nous voulons une échelle universelle pour comparer les corrélations entre toutes les paires de variables.
Bien que les techniques statistiques basées sur l’analyse des tableaux de contingence présentent moins d’inconvénients que les mesures de distance, il existe néanmoins des problèmes importants qui découlent principalement de la façon dont le test de signification statistique (par exemple: statistique du chi carré) est convertie en mesure d’association. Certains des coefficients tels que Phi ne sont définis que pour les tables 2×2. De plus, le coefficient de contingence C présente l’inconvénient de ne pas atteindre une valeur maximale de 1. La valeur la plus élevée de C pour une table 2×2 est 0,707 et pour une table 4×4, elle est 0,870. Cela signifie que C ne peut pas être utilisé pour comparer des associations entre des tables avec différents nombres de catégories ou dans des tables avec un mélange de variables catégorielles et continues. De plus, d’autres mesures telles que le V de Cramer peuvent être un estimateur fortement biaisé, en particulier par rapport aux corrélations entre variables continues et auront tendance à surestimer la force de l’association. Une façon d’atténuer le biais dans le V de Cramer est d’utiliser une sorte de correction de biais suggérée ici. Le V de Cramer corrigé par biais a généralement une erreur quadratique moyenne beaucoup plus petite.