korreláció két diszkrét vagy kategorikus változó között
Általánosságban elmondható, hogy két különböző módon lehet asszociációt találni a kategorikus változók között. Az egyik megközelítés olyan távolságmérőkre támaszkodik, mint az euklideszi távolság vagy a manhattani távolság, míg egy másik megközelítés különféle statisztikai mutatókat ölel fel, mint pl chi-négyzet teszt vagy Goodman Kruskal ‘ s lambda, amelyet eredetileg a készenléti táblázatok elemzésére fejlesztettek ki. Most a matematikai purista odakint helyesen állíthatja, hogy a távolságmérők nem lehetnek korrelációs mutatók, mivel a korrelációnak egységfüggetlennek kell lennie, amely távolság definíció szerint nem lehet. Egyetértek ezzel az érveléssel, és később rámutatok rá, de most már belefoglalom, mivel sokan használják a távolságot a kategorikus változók közötti korreláció proxyjaként. Továbbá, bizonyos különleges helyzetekben van egy könnyű átalakítás között Pearson-korreláció és euklideszi távolság.
Az alábbiakban felsorolok néhány közös mutatót mindkét megközelítésen belül, majd megvitatom a két széles megközelítés relatív erősségeit és gyengeségeit. Azután, felsorolok néhány általánosan használt mutatót mindkét megközelítésen belül, és a relatív érdemeik rövid megvitatásával fejezem be.
távolságmérők
bár a “távolság” fogalma gyakran nem szinonimája a “korrelációnak”, a távolságmérők ennek ellenére felhasználhatók a vektorok közötti hasonlóság kiszámításához, amely fogalmilag hasonló a korreláció más mértékeihez. Sok más távolságmérő is létezik, és itt kevésbé az a szándékom, hogy bemutassam a két pont közötti távolság kiszámításának különböző módjait, és inkább a távolságmérők általános fogalmát, mint a hasonlóság vagy a korreláció mérésének megközelítését. Az alábbiakban tíz általánosan használt távolságmérőt jegyeztem meg erre a célra. Ha többet szeretne megtudni ezekről a mutatókról, definíciók és képletek itt találhatók.
- az abszolút távolság összege
- a négyzet távolságának összege
- átlag-abszolút hiba
- euklideszi távolság
- Manhattan távolság
- sakktábla távolság
- Minkowski távolság
- Canberra távolság
- koszinusz távolság
- Hamming távolság
kontingencia táblázat elemzése
két kategorikus változó összehasonlításakor a kategóriák frekvenciáinak megszámlálásával könnyen átalakíthatjuk az eredeti vektorokat készenléti táblákká. Képzelje el például, hogy meg akarja nézni, van-e összefüggés a férfi lét és a tudományos támogatás megszerzése között (sajnos van összefüggés, de ez egy másik nap kérdése). Az adatoknak ebben az esetben két oszlopa lehet — az egyik a nemre vonatkozik, amely férfi vagy nő lenne (ebben az esetben bináris világot feltételez), a másik pedig a grant (Igen vagy nem). Az oszlopokból származó adatokat kereszttáblázatként ábrázolhatjuk a páros frekvenciák kiszámításával