En översikt över korrelationsåtgärder mellan kategoriska och kontinuerliga variabler

korrelation mellan två diskreta eller kategoriska variabler

i stort sett finns det två olika sätt att hitta samband mellan kategoriska variabler. En uppsättning tillvägagångssätt är beroende av avståndsmätningar som euklidiskt avstånd eller Manhattan avstånd medan en annan uppsättning tillvägagångssätt spänner över olika statistiska mätvärden som chi-square test eller Goodman Kruskals lambda, som ursprungligen utvecklades för att analysera beredskapstabeller. Nu kan den matematiska puristen där ute korrekt hävda att avståndsmätningar inte kan vara en korrelationsmått eftersom korrelationen måste vara enhetsoberoende vilket avstånd per definition inte kan vara. Jag håller med det argumentet och jag kommer att påpeka det senare men för tillfället inkluderar jag det eftersom många använder avstånd som en proxy för korrelation mellan kategoriska variabler. Dessutom finns det i vissa speciella situationer en enkel omvandling mellan Pearson-korrelation och euklidiskt avstånd.

nedan listar jag några vanliga mätvärden inom båda metoderna och diskuterar sedan några relativa styrkor och svagheter i de två breda tillvägagångssätten. Sedan listar jag några vanliga mätvärden inom båda metoderna och slutar med en kort diskussion om deras relativa meriter.

avståndsmått

även om begreppet ” avstånd ”ofta inte är synonymt med” korrelation”, kan avståndsmått ändå användas för att beräkna likheten mellan vektorer, vilket konceptuellt liknar andra mått på korrelation. Det finns många andra avståndsmått, och min avsikt här är mindre att introducera dig till alla de olika sätt på vilka avståndet mellan två punkter kan beräknas, och mer att införa den allmänna uppfattningen av avståndsmått som ett sätt att mäta likhet eller korrelation. Jag har noterat tio vanliga avståndsmått nedan för detta ändamål. Om du är intresserad av att lära dig mer om dessa mätvärden kan definitioner och formler hittas här.

  1. summan av absolut avstånd
  2. summan av kvadrat avstånd
  3. medelvärde-absolut fel
  4. euklidiskt avstånd
  5. Manhattan avstånd
  6. schackbräde avstånd
  7. Minkowski avstånd
  8. Canberra avstånd
  9. cosinus avstånd
  10. Hamming avstånd

Beredskapstabell analys

vid jämförelse av två kategoriska variabler kan vi genom att räkna frekvenserna för kategorierna enkelt konvertera de ursprungliga vektorerna till beredskapstabeller. Tänk dig till exempel att du ville se om det finns en korrelation mellan att vara en man och få ett vetenskapsbidrag (tyvärr finns det en korrelation men det är en fråga för en annan dag). Dina data kan ha två kolumner i det här fallet-en för kön som skulle vara Man eller kvinna (anta en binär värld för det här fallet) och en annan för grant (Ja eller Nej). Vi kan ta data från dessa kolumner och representera den som en korstabulering genom att beräkna de parvisa frekvenserna

originaldatatabell med två kolumner som har några kategoriska data

korstabulera de kategoriska variablerna och presentera samma data som a beredskapstabell

Beredskapstabeller eller tvärtabulering visar den multivariata frekvensfördelningen av variabler och används starkt i vetenskaplig forskning över discipliner. På grund av deras tunga historiska användning i statistiska analyser har en familj av tester utvecklats för att bestämma betydelsen av skillnaden mellan två kategorier av en variabel jämfört med en annan kategorisk variabel. Ett populärt tillvägagångssätt för dikotomvariabler (dvs. variabler med endast två kategorier) bygger på Chi-kvadratfördelningen. Vi är inte intresserade av att testa den statistiska signifikansen men vi är mer intresserade av effektstorlek och specifikt i styrkan i sambandet mellan de två variablerna. Tack och lov har flera koefficienter definierats för detta ändamål, inklusive flera som använder chi-square-statistiken. Här är några exempel:

  1. Goodman Kruskals lambda
  2. Phi co-efficient (använder chi-squared statistik)
  3. Cramers V (använder chi-squared statistik)
  4. Tschuprows T (använder chi-squared statistik)
  5. Beredskapskoefficient C (använder chi-squared statistik)

relativa styrkor och svagheter

avstånd metrics, åtminstone för mig, är mer intuitiva och lättare att förstå. Det är vettigt att om en variabel är perfekt prediktiv för en annan variabel, när de plottas i ett högdimensionellt utrymme, kommer de två variablerna att överlappa eller vara mycket nära varandra. Eftersom jag tror att metoder man använder för att analysera data lätt kan förklaras för icke-statistiker när det är möjligt , har Avstånd en uppenbar överklagande. Men en stor nackdel med tillvägagångssätt som bygger på avståndsmätningar är att de är skalberoende. Om du skalar din inmatning med en faktor 10, kommer alla avståndsmått att vara känsliga för det och förändras avsevärt. Detta beteende är uppenbarligen inte önskvärt att förstå godhet passform mellan olika funktioner. Dessutom är avståndsmätningar inte lätt jämförbara mellan variabla par med olika antal kategorier. Låt mig illustrera detta med ett exempel — låt oss säga att vi har 3 kolumner — kön med två kategorier (Man representerad av 0 och kvinna representerad av 1), betyg med tre kategorier (utmärkt representerad av 2, bra representerad av 1 och dålig representerad av 0) och college antagning (Ja representerad av 1 och nej representerad av 0). Vi vill jämföra om kön är mer korrelerat med college antagning eller betyg är mer korrelerade med college antagning. Eftersom värdena på betyg varierar från Medan kön varierar från avståndet mellan college antagning (range — ) och betyg kommer att vara artificiellt uppblåst jämfört med avståndet mellan college antagning och kön. Det här problemet kan enkelt tas bort om du en-hot kodar alla variabler i din matris innan du beräknar korrelationer så att varje kategorisk variabel bara har två värden — Ja (1) eller Nej (0).

en annan potentiellt större nackdel med att använda avståndsmätningar är att det ibland inte finns en enkel omvandling av ett avståndsmätvärde till en godhet av passningskoefficient vilket är vad vi vill att vi är mer intresserade av för detta blogginlägg. Jag bör notera här att om du skalar och centrerar dina kontinuerliga data, kan euklidiskt avstånd fortfarande användas eftersom det i dessa fall finns en enkel omvandling av euklidiskt avstånd till Pearson-korrelation. Naturligtvis skulle den andra lösningen man kan försöka vara att använda olika cutoff-kriterier för korrelationer mellan två diskreta variabler jämfört med två kontinuerliga variabler. Men enligt mig är det inte idealiskt eftersom vi vill ha en universell skala för att jämföra korrelationer mellan alla variabla par.

även om statistiska tekniker baserade på analys av beredskapstabeller lider av färre nackdelar jämfört med avståndsmått, finns det ändå viktiga frågor som oftast uppstår från hur statistiskt signifikanstest (till exempel: chi-square statistik) omvandlas till ett mått på association. Några av koefficienterna som Phi definieras endast för 2×2 tabeller. Dessutom lider beredskapskoefficienten C av nackdelen att den inte når ett maximalt värde på 1. Det högsta värdet på C för ett 2×2-bord är 0,707 och för ett 4×4-bord är det 0,870. Detta innebär att C inte kan användas för att jämföra associationer mellan tabeller med olika antal kategorier eller i tabeller med en blandning av kategoriska och kontinuerliga variabler. Vidare kan andra åtgärder som Cramers V vara en starkt förspänd estimator, särskilt jämfört med korrelationer mellan kontinuerliga variabler och tenderar att överskatta styrkan i föreningen. Ett sätt att mildra förspänningen i Cramers V är att använda en slags förspänningskorrigering som föreslås här. Förspänningen korrigerade Cramers V visade sig typiskt ha ett mycket mindre medelvärde kvadratfel.

Lämna ett svar

Din e-postadress kommer inte publiceras.