Ein Überblick über Korrelationsmaße zwischen kategorialen und kontinuierlichen Variablen

Korrelation zwischen zwei diskreten oder kategorialen Variablen

Im Großen und Ganzen gibt es zwei verschiedene Möglichkeiten, eine Assoziation zwischen kategorialen Variablen zu finden. Ein Satz von Ansätzen basiert auf Entfernungsmetriken wie der euklidischen Entfernung oder der Manhattan-Entfernung, während ein anderer Satz von Ansätzen verschiedene statistische Metriken wie den Chi-Quadrat-Test oder das Lambda von Goodman Kruskal umfasst, das ursprünglich zur Analyse von Kontingenztabellen entwickelt wurde. Nun könnte der mathematische Purist da draußen richtig argumentieren, dass Entfernungsmetriken keine Korrelationsmetrik sein können, da die Korrelation einheitsunabhängig sein muss, was die Entfernung per Definition nicht sein kann. Ich stimme diesem Argument zu und werde es später darauf hinweisen, aber im Moment schließe ich es ein, da viele Leute die Entfernung als Proxy für die Korrelation zwischen kategorialen Variablen verwenden. Darüber hinaus gibt es in bestimmten speziellen Situationen eine einfache Konvertierung zwischen Pearson-Korrelation und euklidischer Entfernung.

Im Folgenden liste ich einige gemeinsame Metriken in beiden Ansätzen auf und diskutiere dann einige relative Stärken und Schwächen der beiden großen Ansätze. Dann liste ich einige häufig verwendete Metriken in beiden Ansätzen auf und beende mit einer kurzen Diskussion ihrer relativen Vorzüge.

Entfernungsmetriken

Obwohl das Konzept der „Entfernung“ oft nicht gleichbedeutend mit „Korrelation“ ist, können Entfernungsmetriken dennoch verwendet werden, um die Ähnlichkeit zwischen Vektoren zu berechnen, die konzeptionell anderen Korrelationsmaßen ähnlich ist. Es gibt viele andere Entfernungsmetriken, und meine Absicht hier ist weniger, Ihnen die verschiedenen Möglichkeiten vorzustellen, wie die Entfernung zwischen zwei Punkten berechnet werden kann, als vielmehr den allgemeinen Begriff der Entfernungsmetriken als Ansatz zur Messung von Ähnlichkeit oder Korrelation einzuführen. Ich habe unten zehn häufig verwendete Entfernungsmetriken für diesen Zweck notiert. Wenn Sie mehr über diese Metriken erfahren möchten, Definitionen und Formeln finden Sie hier.

  1. Summe der absoluten Entfernung
  2. Summe der quadratischen Entfernung
  3. Mittelwert-absoluter Fehler
  4. Euklidische Entfernung
  5. Manhattan-Entfernung
  6. Schachbrettentfernung
  7. Minkowski-Entfernung
  8. Canberra-Entfernung
  9. Kosinus-Entfernung
  10. Hamming-Entfernung

Kontingenztabelle Analyse

Wenn wir zwei kategoriale Variablen vergleichen, können wir durch Zählen der Häufigkeiten der Kategorien die ursprünglichen Vektoren leicht in Kontingenztabellen konvertieren. Stellen Sie sich zum Beispiel vor, Sie wollten sehen, ob es einen Zusammenhang zwischen einem Mann und einem Wissenschaftsstipendium gibt (leider gibt es einen Zusammenhang, aber das ist eine Sache für einen anderen Tag). Ihre Daten haben in diesem Fall möglicherweise zwei Spalten — eine für das Geschlecht, das männlich oder weiblich wäre (nehmen Sie für diesen Fall eine binäre Welt an), und eine andere für das Geschlecht (Ja oder Nein). Wir könnten die Daten aus diesen Spalten nehmen und sie als Kreuztabellierung darstellen, indem wir die paarweisen Frequenzen berechnen

Ursprüngliche Datentabelle mit zwei Spalten mit einigen kategorialen Daten

Kreuztabellierung der kategorialen Variablen und Darstellung derselben Daten wie eine Kontingenztabelle

Kontingenztabellen oder Kreuztabellen zeigen die multivariate Häufigkeitsverteilung von Variablen an und werden in der wissenschaftlichen Forschung disziplinübergreifend stark eingesetzt. Aufgrund ihrer starken historischen Verwendung in statistischen Analysen wurde eine Familie von Tests entwickelt, um die Signifikanz des Unterschieds zwischen zwei Kategorien einer Variablen im Vergleich zu einer anderen kategorialen Variablen zu bestimmen. Ein beliebter Ansatz für dichotome Variablen (d. H. Variablen mit nur zwei Kategorien) basiert auf der Chi-Quadrat-Verteilung. Wir sind jedoch nicht daran interessiert, die statistische Signifikanz zu testen, Wir interessieren uns mehr für die Effektgröße und speziell für die Stärke der Assoziation zwischen den beiden Variablen. Glücklicherweise wurden zu diesem Zweck mehrere Koeffizienten definiert, darunter mehrere, die die Chi-Quadrat-Statistik verwenden. Hier einige Beispiele:

  1. Goodman Kruskals Lambda
  2. Phi-Koeffizient (verwendet Chi-Quadrat-Statistik)
  3. Cramers V (verwendet Chi-Quadrat-Statistik)
  4. Tschuprows T (verwendet Chi-Quadrat-Statistik)
  5. Kontingenzkoeffizient C (verwendet Chi-Quadrat-Statistik)

Relative Stärken und Schwächen

Entfernungsmetriken , zumindest für mich, sind intuitiver und leichter zu verstehen. Es ist sinnvoll, dass, wenn eine Variable eine andere Variable perfekt vorhersagt, wenn sie in einem hochdimensionalen Raum aufgetragen wird, die beiden Variablen überlagern oder sehr nahe beieinander liegen. Da ich glaube, dass Methoden, die man zur Analyse von Daten verwendet, für Nicht-Statistiker wann immer möglich leicht erklärbar sind , hat die Verwendung von Distanz einen offensichtlichen Reiz. Ein großer Nachteil von Ansätzen, die sich auf Entfernungsmetriken verlassen, ist jedoch, dass sie skalierungsabhängig sind. Wenn Sie Ihre Eingabe um den Faktor 10 skalieren, reagiert jede Entfernungsmetrik darauf und ändert sich erheblich. Dieses Verhalten ist offensichtlich nicht wünschenswert, um die Anpassungsgüte zwischen verschiedenen Merkmalen zu verstehen. Darüber hinaus sind Entfernungsmetriken zwischen Variablenpaaren mit unterschiedlicher Anzahl von Kategorien nicht leicht vergleichbar. Lassen Sie mich dies an einem Beispiel veranschaulichen — nehmen wir an, wir haben 3 Spalten — Geschlecht mit zwei Kategorien (Männlich vertreten durch 0 und Weiblich vertreten durch 1), Noten mit drei Kategorien (Ausgezeichnet vertreten durch 2, Gut vertreten durch 1 und Schlecht vertreten durch 0) und Hochschulzulassung (Ja vertreten durch 1 und Nein vertreten durch 0). Wir möchten vergleichen, ob das Geschlecht stärker mit der Zulassung zum College korreliert oder ob die Noten stärker mit der Zulassung zum College korrelieren. Schon seit, Die Werte der Noten reichen von während Geschlecht reicht von der Entfernung zwischen College—Zulassung (Bereich – ) und Noten werden im Vergleich zur Entfernung zwischen College-Zulassung und Geschlecht künstlich aufgeblasen. Dieses Problem kann jedoch leicht behoben werden, wenn Sie alle Variablen in Ihrer Matrix One-Hot codieren, bevor Sie Korrelationen berechnen, sodass jede kategoriale Variable nur zwei Werte hat — Ja (1) oder Nein (0).

Ein weiterer potenziell größerer Nachteil der Verwendung von Entfernungsmetriken besteht darin, dass es manchmal keine einfache Konvertierung einer Entfernungsmetrik in einen Anpassungskoeffizienten gibt, an dem wir für die Zwecke dieses Blogbeitrags mehr interessiert sein möchten. Ich sollte hier beachten, dass, wenn Sie Ihre kontinuierlichen Daten skalieren und zentrieren, die euklidische Entfernung weiterhin verwendet werden kann, da in diesen Fällen eine einfache Konvertierung der euklidischen Entfernung in die Pearson-Korrelation erfolgt. Die andere Lösung, die man versuchen könnte, wäre natürlich, unterschiedliche Grenzwertkriterien für Korrelationen zwischen zwei diskreten Variablen im Vergleich zu zwei kontinuierlichen Variablen zu verwenden. Aber das ist meiner Meinung nach nicht ideal, da wir eine universelle Skala wollen, um Korrelationen zwischen allen Variablenpaaren zu vergleichen.

Obwohl statistische Techniken, die auf der Analyse von Kontingenztabellen basieren, im Vergleich zu Entfernungsmetriken weniger Nachteile aufweisen, gibt es dennoch wichtige Probleme, die sich hauptsächlich daraus ergeben, wie der statistische Signifikanztest (zum Beispiel: chi-Quadrat-Statistik) wird in ein Assoziationsmaß umgewandelt. Einige der Koeffizienten wie Phi sind nur für 2×2-Tabellen definiert. Zusätzlich hat der Kontingenzkoeffizient C den Nachteil, dass er einen Maximalwert von 1 nicht erreicht. Der höchste Wert von C für eine 2×2-Tabelle beträgt 0,707 und für eine 4×4-Tabelle 0,870. Dies bedeutet, dass C nicht zum Vergleichen von Zuordnungen zwischen Tabellen mit einer unterschiedlichen Anzahl von Kategorien oder in Tabellen mit einer Mischung aus kategorialen und stetigen Variablen verwendet werden kann. Darüber hinaus können andere Maßnahmen wie Cramers V ein stark verzerrter Schätzer sein, insbesondere im Vergleich zu Korrelationen zwischen kontinuierlichen Variablen, und neigen dazu, die Stärke der Assoziation zu überschätzen. Eine Möglichkeit, die Verzerrung in Cramers V zu mildern, besteht darin, eine Art hier vorgeschlagene Verzerrungskorrektur zu verwenden. Das Bias korrigierte Cramer’s V zeigte typischerweise einen viel kleineren mittleren quadratischen Fehler.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.