En oversigt over korrelationsmål mellem kategoriske og kontinuerlige variabler

korrelation mellem to diskrete eller kategoriske variabler

stort set er der to forskellige måder at finde sammenhæng mellem kategoriske variabler. Et sæt tilgange er afhængige af afstandsmålinger såsom euklidisk afstand eller Manhattan-afstand, mens et andet sæt tilgange spænder over forskellige statistiske målinger såsom chi-firkantet test eller Goodman Kruskal ‘ s lambda, som oprindeligt blev udviklet til at analysere beredskabstabeller. Nu kunne den matematiske purist derude korrekt hævde, at afstandsmålinger ikke kan være en korrelationsmetrik, da korrelation skal være enhedsuafhængig, hvilken afstand pr. Jeg er enig i dette argument, og jeg vil påpege det senere, men for nu inkluderer jeg det, da mange mennesker bruger afstand som en fuldmagt til sammenhæng mellem kategoriske variabler. Derudover er der i visse specielle situationer en let konvertering mellem Pearson-korrelation og euklidisk afstand.

nedenfor viser jeg nogle almindelige målinger inden for begge tilgange og diskuterer derefter nogle relative styrker og svagheder ved de to brede tilgange. Derefter opregner jeg nogle almindeligt anvendte målinger inden for begge tilgange og slutter med en kort diskussion af deres relative fordele.

afstandsmålinger

selvom begrebet “afstand” ofte ikke er synonymt med “korrelation”, kan afstandsmålinger ikke desto mindre bruges til at beregne ligheden mellem vektorer, som konceptuelt ligner andre målinger af korrelation. Der er mange andre afstandsmålinger, og min hensigt her er mindre at introducere dig til alle de forskellige måder, hvorpå afstanden mellem to punkter kan beregnes, og mere for at introducere den generelle opfattelse af afstandsmålinger som en tilgang til måling af lighed eller korrelation. Jeg har bemærket ti almindeligt anvendte afstandsmålinger nedenfor til dette formål. Hvis du er interesseret i at lære mere om disse målinger, kan Definitioner og formler findes her.

  1. summen af absolut afstand
  2. summen af kvadreret afstand
  3. middel-absolut fejl
  4. euklidisk afstand
  5. Manhattan afstand
  6. skakbræt afstand
  7. Minkovski afstand
  8. Canberra afstand
  9. cosinus afstand
  10. Hamming afstand

beredskab tabelanalyse

Når vi sammenligner to kategoriske variabler ved at tælle frekvenserne for kategorierne, kan vi let konvertere de originale vektorer til beredskabstabeller. Forestil dig for eksempel, at du ville se, om der er en sammenhæng mellem at være Mand og få et videnskabstilskud (desværre er der en sammenhæng, men det er et spørgsmål for en anden dag). Dine data kan have to kolonner i dette tilfælde — en for køn, som ville være Mand eller kvinde (antag en binær verden for denne sag) og en anden for grant (Ja eller Nej). Vi kunne tage dataene fra disse kolonner og repræsentere det som en krydstabel ved at beregne de parvise frekvenser

oprindelig datatabel med to kolonner med nogle kategoriske data

kryds tabulering af kategoriske variabler og præsentation af de samme data som en beredskabstabel

Beredskabstabeller eller krydstabel viser den multivariate frekvensfordeling af variabler og bruges stærkt i videnskabelig forskning på tværs af discipliner. På grund af deres tunge historiske anvendelse i statistiske analyser er der udviklet en familie af tests for at bestemme betydningen af forskellen mellem to kategorier af en variabel sammenlignet med en anden kategorisk variabel. En populær tilgang til dikotome variabler (dvs.variabler med kun to kategorier) er bygget på chi-kvadreret fordeling. Vi er ikke interesseret i at teste den statistiske signifikans, men vi er mere interesserede i effektstørrelse og specifikt i styrken af sammenhængen mellem de to variabler. Heldigvis er der defineret flere koefficienter til dette formål, herunder flere, der bruger chi-kvadratstatistikken. Her er nogle eksempler:

  1. Goodman Kruskal ‘s lambda
  2. Phi co-effektiv (bruger chi-kvadreret statistik)
  3. Cramer’ s V (bruger chi-kvadreret statistik)
  4. Tschuprus T (bruger chi-kvadreret statistik)
  5. Beredskabskoefficient C (bruger chi-kvadreret statistik)

Relative styrker og svagheder

afstand metrics, i det mindste for mig, er mere intuitive og lettere at forstå. Det giver mening, at hvis en variabel er perfekt forudsigelig for en anden variabel, når de er afbildet i et højt dimensionelt rum, vil de to variabler overlejre eller være meget tæt på hinanden. Da jeg mener, at metoder, man bruger til at analysere data , let kan forklares for ikke-statistikere, når det er muligt, har brug af Afstand en åbenbar appel. Men en stor ulempe ved tilgange, der er afhængige af afstandsmålinger, er, at de er skalaafhængige. Hvis du skalerer dit input med en faktor på 10, vil enhver afstandsmåling være følsom over for det og ændre sig markant. Denne adfærd er naturligvis ikke ønskeligt at forstå godhed pasform mellem forskellige funktioner. Derudover er afstandsmålinger ikke let sammenlignelige mellem variable par med forskellige antal kategorier. Lad mig illustrere dette med et eksempel — lad os sige, at vi har 3 kolonner — køn med to kategorier (mand repræsenteret af 0 og kvinde repræsenteret af 1), karakterer med tre kategorier (fremragende repræsenteret af 2, God repræsenteret af 1 og dårlig repræsenteret af 0) og college optagelse (ja repræsenteret af 1 og nej repræsenteret af 0). Vi ønsker at sammenligne, om køn er mere korreleret med college optagelse eller karakterer er mere korreleret med college optagelse. Siden, værdierne af karakterer spænder fra, mens køn varierer fra afstanden mellem college — optagelse (rækkevidde -) og karakterer vil blive kunstigt oppustet sammenlignet med afstanden mellem college-optagelse og køn. Dette problem kan let fjernes, men hvis du en-hot koder alle variabler i din matrice, før du beregner korrelationer, således at hver kategoriske variabel kun har to værdier — Ja (1) eller nej (0).

en anden potentielt større ulempe ved at bruge afstandsmålinger er, at der undertiden ikke er en ligefrem konvertering af en afstandsmetrik til en godhed af fit-koefficient, hvilket er det, vi ønsker, vi er mere interesserede i med henblik på dette blogindlæg. Jeg skal bemærke her, at hvis du skalerer og centrerer dine kontinuerlige data, kan euklidisk afstand stadig bruges, da der i disse tilfælde er en let konvertering af euklidisk Afstand til Pearson-korrelation. Selvfølgelig, den anden løsning, man kunne prøve, ville være at bruge forskellige cutoff-kriterier for korrelationer mellem to diskrete variabler sammenlignet med to kontinuerlige variabler. Men ifølge mig er det ikke ideelt, da vi ønsker en universel skala til at sammenligne korrelationer mellem alle variable par.

selvom statistiske teknikker baseret på analyse af beredskabstabeller lider af færre ulemper sammenlignet med afstandsmålinger, er der ikke desto mindre vigtige spørgsmål, der for det meste stammer fra, hvordan den statistiske signifikanstest (for eksempel: chi-kvadratstatistik) konverteres til et mål for forening. Nogle af koefficienterne som Phi er kun defineret for 2H2 tabeller. Derudover lider beredskabskoefficienten C af den ulempe, at den ikke når en maksimal værdi på 1. Den højeste værdi af C for et 2H2 bord er 0,707 og for et 4H4 bord er det 0,870. Dette betyder, at C ikke kan bruges til at sammenligne foreninger mellem tabeller med forskellige antal kategorier eller i tabeller med en blanding af kategoriske og kontinuerlige variabler. Yderligere, andre foranstaltninger såsom Cramer ‘ s V kan være en stærkt forudindtaget estimator, især sammenlignet med korrelationer mellem kontinuerlige variabler og vil have en tendens til at overvurdere styrken af foreningen. En måde at afbøde bias i Cramer ‘ s V er at bruge en slags bias korrektion foreslået her. Forspændingen korrigerede Cramer ‘ s v vist sig typisk at have en meget mindre gennemsnitlig kvadratfejl.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.