Korelace mezi dvěma diskrétní nebo kategorické proměnné
Obecně řečeno, existují dva různé způsoby, jak najít přidružení mezi kategorické proměnné. Jedna sada přístupy spoléhají na metriky, jako je vzdálenost Euklidovská vzdálenost nebo vzdálenost Manhattan, zatímco další sadu přístupů span různé statistické metriky, jako je chi-kvadrát test nebo Goodman Kruskal je lambda, který byl původně vyvinut k analýze kontingenčních tabulek. Teď matematické purista by mohl správně namítnout, že vzdálenost metriky nelze srovnávací metrika, protože korelace musí být jednotka nezávislých, která vzdálenosti podle definice nemůže být. Souhlasím s tímto argumentem a poukážu na to později, ale prozatím to zahrnuji, protože mnoho lidí používá vzdálenost jako proxy pro korelaci mezi kategorickými proměnnými. Dodatečně, v určitých zvláštních situacích existuje snadná konverze mezi Pearsonovou korelací a euklidovskou vzdáleností.
níže uvádím některé běžné metriky v obou přístupech a poté diskutuji o relativních silných a slabých stránkách dvou širokých přístupů. Pak, uvádím některé běžně používané metriky v obou přístupech a končím krátkou diskusí o jejich relativních zásluhách.
Vzdálenost, Metriky,
i když pojem „vzdálenost“ je často synonymem pro „korelace“ vzdálenost metriky mohou být nicméně použity pro výpočet podobnosti mezi vektory, který je koncepčně podobný dalších opatření korelace. Existuje mnoho dalších vzdálenost, metriky, a mým úmyslem je zde méně, aby vám představil různé způsoby, v nichž vzdálenost mezi dvěma body lze vypočítat, a více zavést obecný pojem vzdálenosti metriky, jako přístup k měření podobnosti nebo korelace. Za tímto účelem jsem si všiml deseti běžně používaných metrik vzdálenosti. Pokud máte zájem dozvědět se více o těchto metrikách, definice a vzorce najdete zde.
- Součet Absolutní Vzdálenosti
- Součet čtverců Vzdáleností
- -Absolutní Chyba
- Euklidovské Vzdálenosti
- Vzdálenost Manhattan
- Šachovnici Vzdálenost
- Minkowského Vzdálenost
- Canberra Vzdálenost
- Kosinus Vzdálenost
- Hammingova Vzdálenost
Pohotovostní Tabulka Analýzy
Při porovnávání dvou kategoriálních proměnných, pomocí počítání frekvence kategorií můžeme snadno převést původní vektory do kontingenční tabulky. Představte si například, že byste chtěli zjistit, zda existuje korelace mezi člověkem a získáním vědeckého grantu (bohužel existuje korelace, ale to je záležitost jiného dne). Vaše data mohou mít v tomto případě dva sloupce – jeden pro pohlaví, který by byl muž nebo žena (pro tento případ předpokládejme binární svět) a druhý pro grant (Ano nebo ne). Můžeme vzít data z těchto sloupců a představují si ji jako kříž tabelační výpočtem párové frekvence,
kontingenční tabulky nebo křížové srovnání zobrazení mnohorozměrné frekvenční distribuce proměnných a jsou často používané ve vědeckém výzkumu napříč obory. Vzhledem k jejich těžké historické použití ve statistických analýzách, rodina testy byly vyvinuty pro určení významnosti rozdílu mezi dvěma kategoriemi proměnné ve srovnání s další kategorické proměnné. Populární přístup pro dichotomické proměnné (tj. proměnné pouze se dvěma kategoriemi) je postaven na rozdělení chi-kvadrát. Nechceme však testovat statistickou významnost, více nás zajímá velikost účinku a konkrétně síla asociace mezi těmito dvěma proměnnými. Naštěstí bylo pro tento účel definováno několik koeficientů, včetně několika, které používají statistiku chí-kvadrát. Zde je několik příkladů:
- Goodman Kruskal je lambda
- Phi koeficient (používá chi-squared statistika)
- Cramer ‚ s V (používá chi-squared statistika)
- Tschuprow T (používá chi-squared statistika)
- Pohotovostní koeficient C (použití chi-squared statistika)
Relativní silné a slabé stránky,
Vzdálenost, metriky, alespoň pro mě, jsou více intuitivní a jednodušší na pochopení. Dává smysl, že pokud je jedna proměnná dokonale prediktivní pro jinou proměnnou, při vykreslení ve velkém rozměrovém prostoru se obě proměnné překrývají nebo jsou velmi blízko u sebe. Protože se domnívám, že metody, které člověk používá k analýze dat, lze statistikům snadno vysvětlit, kdykoli je to možné, použití vzdálenosti má zjevnou přitažlivost. Velkou nevýhodou přístupů spoléhajících se na metriky vzdálenosti je však to, že jsou závislé na měřítku. Pokud změníte svůj vstup o faktor 10, jakákoli metrika vzdálenosti bude na ni citlivá a výrazně se změní. Toto chování samozřejmě není žádoucí pochopit dobrotu mezi různými rysy. Metriky vzdálenosti navíc nejsou snadno srovnatelné mezi dvojicemi proměnných s různým počtem kategorií. Dovolte mi to ilustrovat na jednom příkladu — řekněme, že máme 3 sloupce — pohlaví s dvě kategorie (Muž zastoupená 0 a Samice reprezentován 1), stupně se třemi kategoriemi (Vynikající zastoupena 2, Dobře reprezentovány 1 a Chudé reprezentován 0) a přijímací (Ano reprezentovány 1 a Č. reprezentován 0). Chceme porovnat, zda pohlaví více koreluje s přijetím na vysokou školu nebo známky více korelují s přijetím na vysokou školu. Od té doby, hodnoty stupně v rozsahu od zatímco pohlaví se pohybuje v rozmezí od vzdálenosti mezi vysoké vstupné (rozmezí — ) a známky budou uměle nadsazené oproti vzdálenost mezi přijímací a pohlaví. Tento problém však lze snadno odstranit, pokud před výpočtem korelace zakódujete všechny proměnné v matici tak, že každá kategorická proměnná bude mít pouze dvě hodnoty-Ano (1) nebo ne (0).
Další potenciálně větší nevýhodou vzdálenost pomocí metriky je, že někdy není jednoduché konverze vzdálenosti metrické do kvality proložení koeficient, který je to, co chceme, jsme více zajímají o pro účely tohoto blogu. Měl jsem zde poznamenat, že pokud jste měřítko a střed kontinuální data, Euklidovská vzdálenost může být stále použita, protože v těchto případech není snadné konverze z Euklidovské vzdálenosti, aby Pearsonovy korelace. Samozřejmě, že jiné řešení by se to zkusit, by bylo použít různé mezní kritéria pro korelace mezi dvěma diskrétními proměnnými ve srovnání s dvou spojitých proměnných. Ale podle mě to není ideální, protože chceme, univerzální měřítko pro porovnání korelací mezi všemi variabilní páry.
i když statistické techniky založené na analýze kontingenční tabulky trpí méně nevýhod ve srovnání s vzdálenosti metriky, tam jsou důležité otázky, které většinou vyplývají z toho, jak statistickou významnost testu (např.: chí-kvadrát statistika) se převádí na míru asociace. Některé z koeficientů, jako je Phi, jsou definovány pouze pro tabulky 2×2. Navíc pohotovostní koeficient C trpí nevýhodou, že nedosahuje maximální hodnoty 1. Nejvyšší hodnota C pro tabulku 2×2 je 0,707 a pro tabulku 4×4 je 0,870. To znamená, že C nelze použít k porovnání asociací mezi tabulkami s různým počtem kategorií nebo v tabulkách se směsí kategorických a spojitých proměnných. Další, další opatření, jako jsou Cramer ‚ s V mohou být silně neobjektivní odhad, a to zejména ve srovnání s korelací mezi spojité proměnné a bude mít tendenci přeceňovat sílu asociace. Jedním ze způsobů, jak zmírnit zkreslení v Cramerově V, je použít zde navrženou korekci zkreslení. Zkreslení korigované Cramerovým V ukázalo se, že obvykle má mnohem menší střední čtvercovou chybu.