en oversikt over korrelasjonsmålinger mellom kategoriske og kontinuerlige variabler

Korrelasjon mellom to diskrete eller kategoriske variabler

Grovt Sett Er det To forskjellige måter å finne sammenheng mellom kategoriske variabler. Et sett med tilnærminger stole på avstandsmålinger som Euklidisk avstand eller Manhattan avstand, mens et annet sett med tilnærminger spenner over ulike statistiske beregninger som chi-square test eller Goodman Kruskals lambda, som opprinnelig ble utviklet for å analysere beredskapstabeller. Nå kan den matematiske puristen der ute riktig hevde at avstandsmålinger ikke kan være en korrelasjonsmåling siden korrelasjon må være uavhengig av hvilken avstand per definisjon ikke kan være. Jeg er enig med det argumentet, og jeg vil påpeke det senere, men for nå inkluderer jeg det siden mange bruker avstand som en proxy for korrelasjon mellom kategoriske variabler. Dess, i visse spesielle situasjoner er det en enkel konvertering mellom Pearson korrelasjon og Euklidsk avstand.Nedenfor viser jeg noen vanlige beregninger innenfor begge tilnærmingene, og diskuterer deretter noen relative styrker og svakheter ved de to brede tilnærmingene. Deretter lister jeg noen vanlige beregninger innen begge tilnærminger og slutter med en kort diskusjon av deres relative fordeler.Selv om begrepet » avstand «ofte ikke er synonymt med» korrelasjon», kan avstandsmålinger likevel brukes til å beregne likheten mellom vektorer, som er konseptuelt lik andre målinger av korrelasjon. Det er mange andre avstandsmålinger, og min hensikt her er mindre å introdusere deg til alle de forskjellige måtene som avstanden mellom to punkter kan beregnes på, og mer for å introdusere den generelle oppfatningen av avstandsmålinger som en tilnærming til å måle likhet eller korrelasjon. Jeg har notert ti vanlige avstandsmålinger nedenfor for dette formålet. Hvis du er interessert i å lære mer om disse beregningene, kan definisjoner og formler finnes her.

  1. Sum Av Absolutt Avstand
  2. Sum Av Kvadrert Avstand
  3. Middelverdi-Absolutt Feil
  4. Euklidsk Avstand
  5. Manhattan Avstand
  6. Sjakkbrett Avstand
  7. Minkowski Avstand
  8. Canberra Avstand
  9. Cosinus Avstand
  10. Hamming Avstand

Beredskapstabellanalyse

når vi sammenligner to kategoriske variabler, ved å telle frekvensene i kategoriene, Kan vi Enkelt Konvertere De Opprinnelige vektorene Til beredskapstabeller. For eksempel, tenk deg at du ønsket å se om det er en sammenheng mellom å være en mann og få et vitenskapsbidrag (dessverre er det en sammenheng, men det er et spørsmål for en annen dag). Dataene dine kan ha to kolonner i dette tilfellet-en for kjønn som ville Være Mann eller Kvinne (anta en binær verden for dette tilfellet) og En annen For stipend (Ja Eller Nei). Vi kan ta dataene fra disse kolonnene og representere det som et kryss tabulering ved å beregne parvise frekvenser

/div>

original datatabell med to kolonner som har noen kategoriske data

kryss tabulerer de kategoriske variablene og presenterer de samme dataene som en beredskapstabell

Beredskapstabeller eller krysstabulering viser den multivariate frekvensfordelingen av variabler og er mye brukt i vitenskapelig forskning på tvers av disipliner. På grunn av deres store historiske bruk i statistiske analyser, er det utviklet en familie av tester for å bestemme betydningen av forskjellen mellom to kategorier av en variabel sammenlignet med en annen kategorisk variabel. En populær tilnærming for dikotom variabler (dvs. variabler med bare to kategorier) er bygget på kjikvadratfordelingen. Vi er ikke interessert i å teste den statistiske signifikansen, men vi er mer interessert i effektstørrelse og spesielt i styrken av tilknytning mellom de to variablene. Heldigvis har flere koeffisienter blitt definert for dette formålet, inkludert flere som bruker chi-kvadratstatistikken. Her er noen eksempler:

  1. Goodman Kruskal ‘s lambda
  2. Phi co-effektiv (bruker kjikvadrert statistikk)
  3. Cramer’ s v (bruker kjikvadrert statistikk)
  4. Tschuprow ‘ s t (bruker kjikvadrert statistikk)
  5. Beredskapskoeffisient C (bruker kjikvadrert statistikk)

Relative styrker og svakheter

Avstandsmålinger, i hvert fall for meg, er mer intuitiv Og Lettere Å Forstå. Det er fornuftig at hvis en variabel er perfekt prediktiv for en annen variabel, når den er plottet i et høyt dimensjonalt rom, vil de to variablene legge seg over eller være svært nær hverandre. Siden jeg tror at metoder man bruker til å analysere data, lett kan forklares for ikke-statistikere når det er mulig, har avstand en åpenbar appell. Men en stor ulempe med tilnærminger som stole på avstandsmålinger er at de er skalaavhengige. Hvis du skalerer inngangen din med en faktor på 10, vil enhver avstandsmåling være følsom overfor den og endre seg betydelig. Denne oppførselen er åpenbart ikke ønskelig å forstå godhet av passform mellom ulike funksjoner. I tillegg er avstandsmålinger ikke lett sammenlignbare mellom variable par med forskjellig antall kategorier. La meg illustrere dette med et eksempel-la oss si at vi har 3 kolonner-kjønn med to kategorier (Mann representert ved 0 og Kvinne representert ved 1), karakterer med tre kategorier (Utmerket representert ved 2, Godt representert ved 1 og Dårlig representert ved 0) og college opptak (ja representert ved 1 og Nei representert ved 0). Vi ønsker å sammenligne om kjønn er mer korrelert med college opptak eller karakterer er mer korrelert med college opptak. Siden, verdiene av karakterer varierer fra mens kjønn varierer fra avstanden mellom college opptak (range — ) og karakterer vil bli kunstig oppblåst i forhold til avstanden mellom college opptak og kjønn. Dette problemet kan enkelt fjernes, men hvis du en-hot koder alle variabler i matrisen din før du beregner korrelasjoner slik at hver kategorisk variabel bare har To verdier — Ja (1) eller Nei (0).En annen potensielt større ulempe ved å bruke avstandsmålinger er at det noen ganger ikke er en enkel konvertering av en avstandsmåling til en godhet av passformskoeffisient, noe som er det vi ønsker at vi er mer interessert i i dette blogginnlegget. Jeg bør merke seg at hvis du skalerer og sentrerer dine kontinuerlige data, Kan Euklidisk avstand fortsatt brukes, siden i disse tilfellene er det en enkel konvertering Av Euklidisk avstand til Pearson-korrelasjon. Selvfølgelig kan den andre løsningen man kan prøve, være å bruke forskjellige cutoff-kriterier for korrelasjoner mellom to diskrete variabler sammenlignet med to kontinuerlige variabler. Men ifølge meg er det ikke ideelt siden vi vil ha en universell skala for å sammenligne korrelasjoner mellom alle variable par.

selv om statistiske teknikker basert på analyse av beredskapstabeller lider av færre ulemper i forhold til avstandsmålinger, er det likevel viktige problemer som for det meste oppstår fra hvordan statistisk signifikans test (for eksempel: chi-kvadratstatistikk) konverteres til et mål for forening. Noen av koeffisientene Som Phi er definert bare for 2×2 tabeller. I tillegg lider beredskapskoeffisienten C av ulempen at den ikke når en maksimumsverdi på 1. Den høyeste verdien Av C For et 2×2 bord er 0,707 og for et 4×4 bord er det 0,870. Dette betyr At C ikke kan brukes til å sammenligne sammenhenger mellom tabeller med forskjellige antall kategorier eller i tabeller med en blanding av kategoriske og kontinuerlige variabler. Videre kan andre tiltak som Cramer V re en tungt partisk estimator, spesielt i forhold til korrelasjoner mellom kontinuerlige variabler og vil ha en tendens til a overvurdere styrken av foreningen. En måte å redusere bias i Cramer ‘ S V er å bruke en slags bias korreksjon foreslått her. Bias korrigert Cramer V vist seg å typisk ha en mye mindre middel kvadrat feil.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.