Korrelation zwischen zwei diskreten oder kategorialen Variablen
Im Großen und Ganzen gibt es zwei verschiedene Möglichkeiten, eine Assoziation zwischen kategorialen Variablen zu finden. Ein Satz von Ansätzen basiert auf Entfernungsmetriken wie der euklidischen Entfernung oder der Manhattan-Entfernung, während ein anderer Satz von Ansätzen verschiedene statistische Metriken wie den Chi-Quadrat-Test oder das Lambda von Goodman Kruskal umfasst, das ursprünglich zur Analyse von Kontingenztabellen entwickelt wurde. Nun könnte der mathematische Purist da draußen richtig argumentieren, dass Entfernungsmetriken keine Korrelationsmetrik sein können, da die Korrelation einheitsunabhängig sein muss, was die Entfernung per Definition nicht sein kann. Ich stimme diesem Argument zu und werde es später darauf hinweisen, aber im Moment schließe ich es ein, da viele Leute die Entfernung als Proxy für die Korrelation zwischen kategorialen Variablen verwenden. Darüber hinaus gibt es in bestimmten speziellen Situationen eine einfache Konvertierung zwischen Pearson-Korrelation und euklidischer Entfernung.
Im Folgenden liste ich einige gemeinsame Metriken in beiden Ansätzen auf und diskutiere dann einige relative Stärken und Schwächen der beiden großen Ansätze. Dann liste ich einige häufig verwendete Metriken in beiden Ansätzen auf und beende mit einer kurzen Diskussion ihrer relativen Vorzüge.
Entfernungsmetriken
Obwohl das Konzept der „Entfernung“ oft nicht gleichbedeutend mit „Korrelation“ ist, können Entfernungsmetriken dennoch verwendet werden, um die Ähnlichkeit zwischen Vektoren zu berechnen, die konzeptionell anderen Korrelationsmaßen ähnlich ist. Es gibt viele andere Entfernungsmetriken, und meine Absicht hier ist weniger, Ihnen die verschiedenen Möglichkeiten vorzustellen, wie die Entfernung zwischen zwei Punkten berechnet werden kann, als vielmehr den allgemeinen Begriff der Entfernungsmetriken als Ansatz zur Messung von Ähnlichkeit oder Korrelation einzuführen. Ich habe unten zehn häufig verwendete Entfernungsmetriken für diesen Zweck notiert. Wenn Sie mehr über diese Metriken erfahren möchten, Definitionen und Formeln finden Sie hier.
- Summe der absoluten Entfernung
- Summe der quadratischen Entfernung
- Mittelwert-absoluter Fehler
- Euklidische Entfernung
- Manhattan-Entfernung
- Schachbrettentfernung
- Minkowski-Entfernung
- Canberra-Entfernung
- Kosinus-Entfernung
- Hamming-Entfernung
Kontingenztabelle Analyse
Wenn wir zwei kategoriale Variablen vergleichen, können wir durch Zählen der Häufigkeiten der Kategorien die ursprünglichen Vektoren leicht in Kontingenztabellen konvertieren. Stellen Sie sich zum Beispiel vor, Sie wollten sehen, ob es einen Zusammenhang zwischen einem Mann und einem Wissenschaftsstipendium gibt (leider gibt es einen Zusammenhang, aber das ist eine Sache für einen anderen Tag). Ihre Daten haben in diesem Fall möglicherweise zwei Spalten — eine für das Geschlecht, das männlich oder weiblich wäre (nehmen Sie für diesen Fall eine binäre Welt an), und eine andere für das Geschlecht (Ja oder Nein). Wir könnten die Daten aus diesen Spalten nehmen und sie als Kreuztabellierung darstellen, indem wir die paarweisen Frequenzen berechnen