a kategorikus és folytonos változók közötti korrelációs mérések áttekintése

korreláció két diszkrét vagy kategorikus változó között

Általánosságban elmondható, hogy két különböző módon lehet asszociációt találni a kategorikus változók között. Az egyik megközelítés olyan távolságmérőkre támaszkodik, mint az euklideszi távolság vagy a manhattani távolság, míg egy másik megközelítés különféle statisztikai mutatókat ölel fel, mint pl chi-négyzet teszt vagy Goodman Kruskal ‘ s lambda, amelyet eredetileg a készenléti táblázatok elemzésére fejlesztettek ki. Most a matematikai purista odakint helyesen állíthatja, hogy a távolságmérők nem lehetnek korrelációs mutatók, mivel a korrelációnak egységfüggetlennek kell lennie, amely távolság definíció szerint nem lehet. Egyetértek ezzel az érveléssel, és később rámutatok rá, de most már belefoglalom, mivel sokan használják a távolságot a kategorikus változók közötti korreláció proxyjaként. Továbbá, bizonyos különleges helyzetekben van egy könnyű átalakítás között Pearson-korreláció és euklideszi távolság.

Az alábbiakban felsorolok néhány közös mutatót mindkét megközelítésen belül, majd megvitatom a két széles megközelítés relatív erősségeit és gyengeségeit. Azután, felsorolok néhány általánosan használt mutatót mindkét megközelítésen belül, és a relatív érdemeik rövid megvitatásával fejezem be.

távolságmérők

bár a “távolság” fogalma gyakran nem szinonimája a “korrelációnak”, a távolságmérők ennek ellenére felhasználhatók a vektorok közötti hasonlóság kiszámításához, amely fogalmilag hasonló a korreláció más mértékeihez. Sok más távolságmérő is létezik, és itt kevésbé az a szándékom, hogy bemutassam a két pont közötti távolság kiszámításának különböző módjait, és inkább a távolságmérők általános fogalmát, mint a hasonlóság vagy a korreláció mérésének megközelítését. Az alábbiakban tíz általánosan használt távolságmérőt jegyeztem meg erre a célra. Ha többet szeretne megtudni ezekről a mutatókról, definíciók és képletek itt találhatók.

  1. az abszolút távolság összege
  2. a négyzet távolságának összege
  3. átlag-abszolút hiba
  4. euklideszi távolság
  5. Manhattan távolság
  6. sakktábla távolság
  7. Minkowski távolság
  8. Canberra távolság
  9. koszinusz távolság
  10. Hamming távolság

kontingencia táblázat elemzése

két kategorikus változó összehasonlításakor a kategóriák frekvenciáinak megszámlálásával könnyen átalakíthatjuk az eredeti vektorokat készenléti táblákká. Képzelje el például, hogy meg akarja nézni, van-e összefüggés a férfi lét és a tudományos támogatás megszerzése között (sajnos van összefüggés, de ez egy másik nap kérdése). Az adatoknak ebben az esetben két oszlopa lehet — az egyik a nemre vonatkozik, amely férfi vagy nő lenne (ebben az esetben bináris világot feltételez), a másik pedig a grant (Igen vagy nem). Az oszlopokból származó adatokat kereszttáblázatként ábrázolhatjuk a páros frekvenciák kiszámításával

eredeti adattábla két oszloppal, amelyek néhány kategorikus adatot tartalmaznak

a kategorikus változók kereszttáblázata és a készenléti táblázat

a készenléti táblák vagy a kereszttáblázatok a változók többváltozós frekvenciaeloszlását mutatják, és erősen használják a tudományos kutatásban a tudományágak között. A statisztikai elemzésekben való súlyos történeti felhasználásuk miatt, tesztcsaládot fejlesztettek ki a változó két kategóriája közötti különbség jelentőségének meghatározására egy másik kategorikus változóhoz képest. A dichotóm változók (azaz csak két kategóriájú változók) népszerű megközelítése a khi-négyzet eloszlás. A statisztikai szignifikancia tesztelése azonban nem érdekel minket, inkább a hatás nagysága, különös tekintettel a két változó közötti asszociáció erősségére. Szerencsére több együtthatót határoztak meg erre a célra, köztük többet, amelyek a khi-négyzet statisztikát használják. Íme néhány példa:

  1. Goodman Kruskal lambda
  2. Phi koefficiens (Chi-négyzet statisztikát használ)
  3. Cramer V (Chi-négyzet statisztikát használ)
  4. tschuprow t (Chi-négyzet statisztikát használ)
  5. kontingencia együttható C (Chi-négyzet statisztikát használ)

relatív erősségek és gyengeségek

távolság mérőszámok, legalább számomra intuitívabbak és könnyebben érthetőek. Van értelme, hogy ha az egyik változó tökéletesen prediktív egy másik változóra, akkor nagy dimenziós térben ábrázolva a két változó átfedésben lesz, vagy nagyon közel lesz egymáshoz. Mivel úgy gondolom, hogy az adatok elemzésére használt módszerek könnyen megmagyarázhatók a nem statisztikusok számára, amikor csak lehetséges, a távolság használata nyilvánvaló vonzerővel bír. De a távolságmérőkre támaszkodó megközelítések nagy hátránya, hogy skálafüggőek. Ha a bemenetet 10-es tényezővel méretezi, bármely távolságmérő érzékeny lesz rá, és jelentősen megváltozik. Ez a viselkedés nyilvánvalóan nem kívánatos a különböző jellemzők közötti illeszkedés jóságának megértéséhez. Ezenkívül a távolságmérők nem könnyen összehasonlíthatók a különböző kategóriájú változó párok között. Hadd illusztráljam ezt egy példával — tegyük fel, hogy 3 oszlopunk van-nemek két kategóriával (férfi képviseli 0 és nő képviseli 1), osztályzatok három kategóriával (kiváló képviseli 2, Jó képviseli 1 és szegény képviseli 0) és főiskolai felvételi (Igen képviseli 1 és nem képviseli 0). Össze akarjuk hasonlítani, hogy a nemek jobban korrelálnak-e a főiskolai felvételivel, vagy az osztályzatok jobban korrelálnak-e a főiskolai felvételivel. Mivel, az értékek évfolyamok tól, míg a nemek között mozog a távolság főiskolai felvételi (tartomány—) és évfolyamok lesz mesterségesen felfújt közötti távolsághoz képest főiskolai felvételi és a nemek. Ez a probléma azonban könnyen eltávolítható, ha a korrelációk kiszámítása előtt egy forrón kódolja a mátrix összes változóját, így minden kategorikus változónak csak két értéke lesz — igen (1) vagy nem (0).

a távolságmérők használatának másik potenciálisan nagyobb hátránya, hogy néha nincs egy távolságmérő egyszerű átalakítása az illesztési együttható jóságává, ami azt akarjuk, hogy jobban érdekeljünk e blogbejegyzés alkalmazásában. Itt meg kell jegyeznem, hogy ha folyamatos adatait skálázzuk és központosítjuk, akkor az euklideszi távolság továbbra is használható, mivel ezekben az esetekben az euklideszi távolság könnyen átalakítható Pearson-korrelációvá. Természetesen a másik megoldás, amelyet megpróbálhatunk, az lenne, ha különböző határértékeket használnánk két diszkrét változó közötti korrelációhoz két folytonos változóhoz képest. De véleményem szerint ez nem ideális, mivel univerzális skálát akarunk összehasonlítani az összes változó pár közötti korrelációk összehasonlítására.

bár a készenléti táblázatok elemzésén alapuló statisztikai technikák kevesebb hátrányban szenvednek a távolságmérőkhöz képest, ennek ellenére vannak olyan fontos kérdések, amelyek többnyire abból adódnak, hogy a statisztikai szignifikancia teszt (például: khi-négyzet statisztika) asszociáció mértékévé alakul. Néhány együttható, például a Phi, csak 2×2 táblákra van meghatározva. Ezenkívül a C kontingencia együttható hátránya, hogy nem éri el az 1 maximális értéket. A C legmagasabb értéke egy 2×2-es táblánál 0,707, a 4×4-es táblánál pedig 0,870. Ez azt jelenti, hogy a C nem használható a különböző kategóriaszámú táblázatok asszociációinak összehasonlítására, vagy a kategorikus és folytonos változók keverékét tartalmazó táblázatokban. Továbbá, más intézkedések, mint például a Cramer V lehet egy erősen elfogult becslő, különösen összehasonlítva a korrelációk között folytonos változók és hajlamosak túlbecsülni az erejét az egyesület. Az egyik módja annak, hogy enyhítse a torzítás Cramer V az, hogy egyfajta torzítás korrekció javasolt itt. A torzítás korrigált Cramer V általában sokkal kisebb átlagos négyzethibával rendelkezik.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.