korrelation mellan två diskreta eller kategoriska variabler
i stort sett finns det två olika sätt att hitta samband mellan kategoriska variabler. En uppsättning tillvägagångssätt är beroende av avståndsmätningar som euklidiskt avstånd eller Manhattan avstånd medan en annan uppsättning tillvägagångssätt spänner över olika statistiska mätvärden som chi-square test eller Goodman Kruskals lambda, som ursprungligen utvecklades för att analysera beredskapstabeller. Nu kan den matematiska puristen där ute korrekt hävda att avståndsmätningar inte kan vara en korrelationsmått eftersom korrelationen måste vara enhetsoberoende vilket avstånd per definition inte kan vara. Jag håller med det argumentet och jag kommer att påpeka det senare men för tillfället inkluderar jag det eftersom många använder avstånd som en proxy för korrelation mellan kategoriska variabler. Dessutom finns det i vissa speciella situationer en enkel omvandling mellan Pearson-korrelation och euklidiskt avstånd.
nedan listar jag några vanliga mätvärden inom båda metoderna och diskuterar sedan några relativa styrkor och svagheter i de två breda tillvägagångssätten. Sedan listar jag några vanliga mätvärden inom båda metoderna och slutar med en kort diskussion om deras relativa meriter.
avståndsmått
även om begreppet ” avstånd ”ofta inte är synonymt med” korrelation”, kan avståndsmått ändå användas för att beräkna likheten mellan vektorer, vilket konceptuellt liknar andra mått på korrelation. Det finns många andra avståndsmått, och min avsikt här är mindre att introducera dig till alla de olika sätt på vilka avståndet mellan två punkter kan beräknas, och mer att införa den allmänna uppfattningen av avståndsmått som ett sätt att mäta likhet eller korrelation. Jag har noterat tio vanliga avståndsmått nedan för detta ändamål. Om du är intresserad av att lära dig mer om dessa mätvärden kan definitioner och formler hittas här.
summan av absolut avstånd
summan av kvadrat avstånd
medelvärde-absolut fel
euklidiskt avstånd
Manhattan avstånd
schackbräde avstånd
Minkowski avstånd
Canberra avstånd
cosinus avstånd
Hamming avstånd
Beredskapstabell analys
vid jämförelse av två kategoriska variabler kan vi genom att räkna frekvenserna för kategorierna enkelt konvertera de ursprungliga vektorerna till beredskapstabeller. Tänk dig till exempel att du ville se om det finns en korrelation mellan att vara en man och få ett vetenskapsbidrag (tyvärr finns det en korrelation men det är en fråga för en annan dag). Dina data kan ha två kolumner i det här fallet-en för kön som skulle vara Man eller kvinna (anta en binär värld för det här fallet) och en annan för grant (Ja eller Nej). Vi kan ta data från dessa kolumner och representera den som en korstabulering genom att beräkna de parvisa frekvenserna