katsaus kategoristen ja jatkuvien muuttujien välisiin korrelaatiomittareihin

korrelaatio kahden diskreetin tai kategorisen muuttujan välillä

yleisesti ottaen on olemassa kaksi eri tapaa löytää yhteys kategoristen muuttujien välillä. Yhdet lähestymistavat perustuvat etäisyysmittareihin, kuten Euklidiseen etäisyyteen tai Manhattanin etäisyyteen, kun taas toiset lähestymistavat kattavat erilaisia tilastollisia mittareita, kuten chi-neliötestin tai Goodman Kruskalin Lambdan, joka alun perin kehitettiin analysoimaan varautumistaulukoita. Nyt matemaattinen puristin voisi oikein väittää, että etäisyysmittarit eivät voi olla korrelaatiomittareita, koska korrelaation on oltava yksikköriippumaton, mikä etäisyys määritelmän mukaan ei voi olla. Olen samaa mieltä tämän väitteen ja aion huomauttaa siitä myöhemmin, mutta nyt olen sisällyttää sen, koska monet ihmiset käyttävät etäisyys kuin proxy korrelaatio kategoristen muuttujien. Lisäksi tietyissä erikoistilanteissa Pearsonin korrelaation ja euklidisen etäisyyden välillä on helppo muunnos.

alla luettelen joitakin yhteisiä mittareita molemmissa lähestymistavoissa ja käsittelen sitten näiden kahden laajan lähestymistavan suhteellisia vahvuuksia ja heikkouksia. Sitten luettelen joitakin yleisesti käytettyjä mittareita molemmissa lähestymistavoissa ja lopuksi lyhyt keskustelu niiden suhteellisista ansioista.

etäisyysmittarit

vaikka ”etäisyyden” käsite ei useinkaan ole synonyymi ”korrelaatiolle”, voidaan etäisyysmittareita kuitenkin käyttää laskemaan vektorien samankaltaisuus, joka on käsitteellisesti samanlainen kuin muut korrelaatiomittarit. On olemassa monia muita etäisyysmittareita, ja tarkoitukseni tässä on vähemmän esitellä sinulle kaikkia eri tapoja, joilla kahden pisteen välinen etäisyys voidaan laskea, ja enemmän esitellä yleinen käsitys etäisyysmittareista lähestymistapana samankaltaisuuden tai korrelaation mittaamiseen. Olen pannut merkille kymmenen yleisesti käytettyä etäisyysmittaria alla tähän tarkoitukseen. Jos olet kiinnostunut oppimaan lisää näistä mittareista, määritelmät ja kaavat löytyvät täältä.

  1. absoluuttisen etäisyyden summa
  2. keskiarvo-absoluuttinen virhe
  3. Euklidinen Etäisyys
  4. Manhattanin Etäisyys
  5. Minkowskin Etäisyys
  6. Canberran Etäisyys
  7. Kosinetäisyys
  8. Hammingin Etäisyys

Varataulukko analyysi

vertailtaessa kahta kategorista muuttujaa, laskemalla luokkien taajuudet voimme helposti muuntaa alkuperäiset vektorit ennustetaulukoiksi. Esimerkiksi, kuvitella halusi nähdä, jos on korrelaatio on mies ja saada tieteen apuraha (valitettavasti on korrelaatio, mutta se on asia toisen päivän). Tiedoissasi voi olla tässä tapauksessa kaksi saraketta-toinen sukupuolelle, joka olisi mies tai nainen (oletetaan binäärimaailma tässä tapauksessa) ja toinen Grantille (Kyllä tai ei). Näistä sarakkeista saatavan tiedon voisi ottaa ristitaulukoksi laskemalla paritaajuudet

/div>

alkuperäinen datataulukko, jossa on kaksi saraketta, joissa on joitakin kategorisia tietoja

luokittelevat muuttujat ristiin ja esittävät samat tiedot kuin valmiustaulukko

Varautumistaulukot tai ristitaulukot esittävät muuttujien monimuuttujajakauman ja niitä käytetään runsaasti eri tieteenalojen tieteellisessä tutkimuksessa. Koska niitä on käytetty paljon tilastollisissa analyyseissä, on kehitetty testiperhe, joka määrittää muuttujan kahden kategorian välisen eron merkityksen toiseen kategoriseen muuttujaan verrattuna. Suosittu lähestymistapa dikotomisille muuttujille (eli muuttujille, joissa on vain kaksi luokkaa) perustuu chi-potenssijakaumaan. Emme ole kiinnostuneita testaamaan tilastollista merkitsevyyttä, mutta olemme kiinnostuneempia vaikutuksen koosta ja erityisesti näiden kahden muuttujan välisestä assosiaatiosta. Onneksi tähän tarkoitukseen on määritelty useita kertoimia, joista useat käyttävät chi-neliötilastoa. Tässä muutamia esimerkkejä:

  • Goodman Kruskalin lambda
  • Cramerin v (käyttää chi-squared statistic)
  • Tschuprow ’ n T (käyttää chi-squared statistic)
  • Valmiuskerroin C (käyttää chi-squared statistic)
  • suhteelliset vahvuudet ja heikkoudet

    Etäisyys mittaristo, ainakin minulle, on intuitiivisempi ja helpompi ymmärtää. On järkevää, että jos yksi muuttuja on täydellisesti ennustava toisesta muuttujasta, kun se piirretään suuriulotteiseen avaruuteen, kaksi muuttujaa päällekkäin tai ovat hyvin lähellä toisiaan. Koska uskon , että menetelmiä yksi käyttää analysoida tietoja on helposti selitettävissä ei-tilastotieteilijät aina kun mahdollista, käyttämällä etäisyys on ilmeinen valitus. Mutta suuri haittapuoli lähestymistapoja luottaen etäisyysmittarit on, että ne ovat mittakaavasta riippuvaisia. Jos skaalaat tulosi kertoimella 10, kaikki etäisyysmittarit ovat sille herkkiä ja muuttuvat merkittävästi. Tämä käyttäytyminen ei ilmeisesti ole toivottavaa ymmärtää hyvyys sovi eri ominaisuuksien välillä. Lisäksi etäisyysmittarit eivät ole helposti vertailukelpoisia eri luokkiin kuuluvien muuttuvien parien välillä. Haluan havainnollistaa tätä esimerkillä-sanokaamme, että meillä on 3 saraketta — sukupuoli, jossa on kaksi luokkaa (mies edustaa 0 ja nainen edustaa 1), arvosanat, joissa on kolme luokkaa (erinomainen edustaa 2, Hyvä edustaa 1 ja huono edustaa 0) ja college ottamista (Kyllä edustaa 1 ja ei edustaa 0). Haluamme vertailla, korreloiko sukupuoli enemmän korkeakoulujen sisäänpääsyyn vai korreloivatko arvosanat enemmän korkeakoulujen sisäänpääsyyn. Koska, arvot arvosanat vaihtelevat vaikka sukupuoli vaihtelee etäisyys college ottamista (range — ) ja arvosanat on keinotekoisesti paisutettu verrattuna etäisyys college ottamista ja sukupuoli. Tämä ongelma voidaan helposti poistaa, vaikka jos yksi-hot koodata kaikki muuttujat matriisi ennen laskemista korrelaatioita siten, että jokainen kategorinen muuttuja on vain kaksi arvoa-Kyllä (1) tai ei (0).

    toinen mahdollisesti suurempi haittapuoli etäisyysmittareiden käytössä on se, että joskus ei ole suoraviivaista etäisyyden metriikan muuntamista hyvyydeksi sopivuuskertoimesta, joka on se, mistä haluamme olla kiinnostuneempia tämän blogikirjoituksen tarkoituksia varten. Minun pitäisi huomata tässä, että jos mittakaavassa ja keskittää oman jatkuva data, Euklidinen etäisyys voitaisiin vielä käyttää, koska näissä tapauksissa on helppo muuntaa Euklidinen etäisyys Pearson korrelaatio. Tietenkin, toinen ratkaisu voisi yrittää olisi käyttää erilaisia cutoff kriteerit korrelaatioita kahden diskreetti muuttujia verrattuna kaksi jatkuvaa muuttujia. Mutta, mukaan minulle, että ei ole ihanteellinen, koska haluamme universaali asteikko vertailla korrelaatioita kaikkien muuttuvien paria.

    vaikka ennakointitaulukoiden analysointiin perustuvat tilastolliset tekniikat kärsivät vähemmän haitoista etäisyysmittareihin verrattuna, on kuitenkin merkittäviä kysymyksiä, jotka johtuvat lähinnä siitä, miten tilastollinen merkitsevyystesti (esim .: chi-square statistic) muunnetaan assosiaatiomittariksi. Osa kertoimista, kuten Phi, on määritelty vain 2×2-taulukoille. Lisäksi varautumiskerroin C kärsii siitä haitasta, että se ei saavuta maksimiarvoa 1. C: n korkein arvo 2×2-taulukossa on 0,707 ja 4×4-taulukossa se on 0,870. Tämä tarkoittaa sitä, että C: tä ei voida käyttää vertailemaan assosiaatioita taulukoissa, joissa on eri määrä luokkia, tai taulukoissa, joissa on sekoitus kategorisia ja jatkuvia muuttujia. Lisäksi muut toimenpiteet, kuten Cramerin V voivat olla voimakkaasti puolueellinen estimaattori, erityisesti verrattuna jatkuvien muuttujien korrelaatioihin, ja niillä on taipumus yliarvioida assosiaation vahvuus. Yksi tapa lieventää Cramerin V: n bias on käyttää eräänlaista bias-korjausta, jota tässä ehdotetaan. Bias korjattu Cramer n V näytetään tyypillisesti on paljon pienempi keskimääräinen neliö virhe.

    Vastaa

    Sähköpostiosoitettasi ei julkaista.