korelacja między dwiema zmiennymi dyskretnymi lub kategorycznymi
Ogólnie rzecz biorąc, istnieją dwa różne sposoby znalezienia związku między zmiennymi kategorycznymi. Jeden zestaw podejść opiera się na metrykach odległości, takich jak odległość euklidesowa lub odległość Manhattana, podczas gdy inny zestaw podejść obejmuje różne metryki statystyczne, takie jak test chi-kwadrat lub lambda Goodmana Kruskala, który został początkowo opracowany do analizy tabel awaryjnych. Matematyczny purysta mógłby słusznie argumentować, że metryka odległości nie może być metryką korelacji, ponieważ korelacja musi być niezależna od jednostki, a odległość z definicji nie może być. Zgadzam się z tym argumentem i wskażę to później, ale na razie włączam go, ponieważ wiele osób używa odległości jako pośrednika dla korelacji między zmiennymi kategorycznymi. Dodatkowo, w pewnych szczególnych sytuacjach istnieje łatwa konwersja między korelacją Pearsona a odległością euklidesową.
poniżej wymieniam kilka wspólnych wskaźników w ramach obu podejść, a następnie omawiam względne mocne i słabe strony dwóch szerokich podejść. Następnie wymieniam niektóre powszechnie stosowane metryki w obu podejściach i kończę krótką dyskusją na temat ich względnych zalet.
Mierniki odległości
chociaż pojęcie „odległości” często nie jest synonimem „korelacji”, metryki odległości mogą być jednak użyte do obliczenia podobieństwa między wektorami, które jest koncepcyjnie podobne do innych miar korelacji. Istnieje wiele innych mierników odległości, a moim celem jest mniej wprowadzenie was w różne sposoby obliczania odległości między dwoma punktami, a więcej wprowadzenie ogólnego pojęcia mierników odległości jako podejścia do pomiaru podobieństwa lub korelacji. Odnotowałem poniżej dziesięć powszechnie używanych mierników odległości. Jeśli chcesz dowiedzieć się więcej o tych metrykach, definicje i formuły można znaleźć tutaj.
- suma odległości bezwzględnej
- suma odległości kwadratowej
- błąd średni-bezwzględny
- odległość euklidesowa
- odległość Manhattanu
- odległość Minkowskiego
- odległość Canbera
- odległość cosinusa
- odległość Hamminga
Analiza tabeli rezerw
porównując dwie zmienne kategoryczne, zliczając częstotliwości kategorii możemy łatwo przekształcić Wektory pierwotne w tabele. Na przykład wyobraź sobie, że chcesz sprawdzić, czy istnieje korelacja między byciem człowiekiem a otrzymaniem grantu naukowego (niestety istnieje korelacja, ale to kwestia innego dnia). Twoje dane mogą mieć w tym przypadku dwie kolumny – jedną dla płci, która byłaby Męska lub żeńska (Załóżmy binarny świat w tym przypadku) i inną dla Granta (tak lub nie). Możemy pobrać dane z tych kolumn i przedstawić je jako tabelę krzyżową, obliczając pary częstotliwości
tabele awaryjności lub tabele krzyżowe wyświetlają wielowymiarowy rozkład częstotliwości zmiennych i są szeroko stosowane w badaniach naukowych w różnych dyscyplinach. Ze względu na ich duże historyczne zastosowanie w analizach statystycznych opracowano rodzinę testów mających na celu określenie znaczenia różnicy między dwiema kategoriami zmiennej w porównaniu do innej zmiennej kategorycznej. Popularne podejście do zmiennych dychotomicznych (tj. zmiennych z tylko dwiema kategoriami) opiera się na rozkładzie chi-kwadrat. Nie interesuje nas jednak testowanie istotności statystycznej, bardziej interesuje nas wielkość efektu, a w szczególności siła powiązania między dwiema zmiennymi. Na szczęście zdefiniowano w tym celu kilka współczynników, w tym kilka wykorzystujących statystykę chi-kwadrat. Oto kilka przykładów:
- lambda Goodmana Kruskala
- Phi co-efficient (wykorzystuje statystykę chi-kwadrat)
- Cramer 's V (wykorzystuje statystykę chi-kwadrat)
- tschuprow’ S T (wykorzystuje statystykę chi-kwadrat)
- współczynnik awaryjności C (wykorzystuje statystykę chi-kwadrat)
względne mocne i słabe strony
Mierniki odległości, przynajmniej dla mnie są bardziej intuicyjne i łatwiejsze do zrozumienia. Ma to sens, że jeśli jedna zmienna jest doskonale przewidująca inną zmienną, gdy wykreślona w przestrzeni o wysokim wymiarze, dwie zmienne będą się nakładać lub być bardzo blisko siebie. Ponieważ uważam, że metody, których używa się do analizy danych, można łatwo wyjaśnić nie-statystykom, gdy tylko jest to możliwe, użycie odległości ma oczywistą atrakcyjność. Ale dużą wadą podejść opartych na metrykach odległości jest to, że są one zależne od skali. Jeśli przeskalujesz dane wejściowe o współczynnik 10, każda metryka odległości będzie na nie wrażliwa i znacząco się zmieni. Takie zachowanie nie jest oczywiście pożądane, aby zrozumieć dobroć dopasowania między różnymi cechami. Ponadto metryki odległości nie są łatwo porównywalne między zmiennymi parami o różnej liczbie kategorii. Pozwólcie, że zilustruję to przykładem-powiedzmy, że mamy 3 kolumny-płeć z dwiema kategoriami (Mężczyzna reprezentowany przez 0 i kobieta reprezentowana przez 1), stopnie z trzema kategoriami (doskonały reprezentowany przez 2, Dobry reprezentowany przez 1 i biedny reprezentowany przez 0) i przyjęcie na studia (tak reprezentowany przez 1 i nie reprezentowany przez 0). Chcemy porównać, czy płeć jest bardziej skorelowana z przyjęciem na studia, czy oceny są bardziej skorelowane z przyjęciem na studia. Ponieważ wartości stopni wahają się od, gdy płeć waha się od odległości między przyjęciem na studia (zakres -) i stopnie będą sztucznie zawyżone w porównaniu do odległości między przyjęciem na studia a płcią. Ten problem można łatwo usunąć, jeśli najpierw zakodujesz wszystkie zmienne w macierzy przed obliczeniem korelacji, tak aby każda zmienna kategoryczna miała tylko dwie wartości — tak (1) lub Nie (0).
kolejną potencjalnie większą wadą korzystania z mierników odległości jest to, że czasami nie ma prostej konwersji metryki odległości w współczynnik dopasowania, który jest tym, czego chcemy, jesteśmy bardziej zainteresowani na potrzeby tego posta na blogu. Powinienem tutaj zauważyć, że jeśli skalujesz i wyśrodkowujesz swoje ciągłe dane, odległość euklidesowa może być nadal używana, ponieważ w tych przypadkach istnieje łatwa konwersja odległości euklidesowej do korelacji Pearsona. Oczywiście, innym rozwiązaniem, które można wypróbować, byłoby użycie różnych kryteriów odcięcia dla korelacji między dwiema zmiennymi dyskretnymi w porównaniu do dwóch zmiennych ciągłych. Ale według mnie to nie jest idealne, ponieważ chcemy uniwersalnej skali do porównywania korelacji między wszystkimi parami zmiennych.
chociaż techniki statystyczne oparte na analizie tabel awaryjnych mają mniej wad w porównaniu z miernikami odległości, mimo to istnieją ważne kwestie, które głównie wynikają z tego, jak test istotności statystycznej (na przykład: statystyka chi-kwadrat) jest przekształcana w miarę asocjacji. Niektóre współczynniki, takie jak Phi, są zdefiniowane tylko dla tabel 2×2. Ponadto współczynnik nieprzewidziany C ma tę wadę, że nie osiąga maksymalnej wartości 1. Najwyższa wartość C dla tabeli 2×2 wynosi 0,707, a dla tabeli 4×4 wynosi 0,870. Oznacza to, że C nie może być używane do porównywania skojarzeń między tabelami o różnej liczbie kategorii lub w tabelach z mieszaniną zmiennych kategorycznych i ciągłych. Ponadto, inne środki, takie jak Cramera V może być silnie stronniczy Estymator, zwłaszcza w porównaniu do korelacji między zmiennymi ciągłymi i będą miały tendencję do przeszacowania siły Stowarzyszenia. Jednym ze sposobów na złagodzenie odchylenia w V Cramer ’ a jest użycie pewnego rodzaju korekcji odchylenia sugerowanej tutaj. Odchylenie skorygowane Cramera V pokazano, że zwykle ma znacznie mniejszy średni błąd kwadratowy.