korrelation mellem to diskrete eller kategoriske variabler
stort set er der to forskellige måder at finde sammenhæng mellem kategoriske variabler. Et sæt tilgange er afhængige af afstandsmålinger såsom euklidisk afstand eller Manhattan-afstand, mens et andet sæt tilgange spænder over forskellige statistiske målinger såsom chi-firkantet test eller Goodman Kruskal ‘ s lambda, som oprindeligt blev udviklet til at analysere beredskabstabeller. Nu kunne den matematiske purist derude korrekt hævde, at afstandsmålinger ikke kan være en korrelationsmetrik, da korrelation skal være enhedsuafhængig, hvilken afstand pr. Jeg er enig i dette argument, og jeg vil påpege det senere, men for nu inkluderer jeg det, da mange mennesker bruger afstand som en fuldmagt til sammenhæng mellem kategoriske variabler. Derudover er der i visse specielle situationer en let konvertering mellem Pearson-korrelation og euklidisk afstand.
nedenfor viser jeg nogle almindelige målinger inden for begge tilgange og diskuterer derefter nogle relative styrker og svagheder ved de to brede tilgange. Derefter opregner jeg nogle almindeligt anvendte målinger inden for begge tilgange og slutter med en kort diskussion af deres relative fordele.
afstandsmålinger
selvom begrebet “afstand” ofte ikke er synonymt med “korrelation”, kan afstandsmålinger ikke desto mindre bruges til at beregne ligheden mellem vektorer, som konceptuelt ligner andre målinger af korrelation. Der er mange andre afstandsmålinger, og min hensigt her er mindre at introducere dig til alle de forskellige måder, hvorpå afstanden mellem to punkter kan beregnes, og mere for at introducere den generelle opfattelse af afstandsmålinger som en tilgang til måling af lighed eller korrelation. Jeg har bemærket ti almindeligt anvendte afstandsmålinger nedenfor til dette formål. Hvis du er interesseret i at lære mere om disse målinger, kan Definitioner og formler findes her.
- summen af absolut afstand
- summen af kvadreret afstand
- middel-absolut fejl
- euklidisk afstand
- Manhattan afstand
- skakbræt afstand
- Minkovski afstand
- Canberra afstand
- cosinus afstand
- Hamming afstand
beredskab tabelanalyse
Når vi sammenligner to kategoriske variabler ved at tælle frekvenserne for kategorierne, kan vi let konvertere de originale vektorer til beredskabstabeller. Forestil dig for eksempel, at du ville se, om der er en sammenhæng mellem at være Mand og få et videnskabstilskud (desværre er der en sammenhæng, men det er et spørgsmål for en anden dag). Dine data kan have to kolonner i dette tilfælde — en for køn, som ville være Mand eller kvinde (antag en binær verden for denne sag) og en anden for grant (Ja eller Nej). Vi kunne tage dataene fra disse kolonner og repræsentere det som en krydstabel ved at beregne de parvise frekvenser