corelația dintre două variabile discrete sau categorice
în linii mari, există două moduri diferite de a găsi asocierea între variabilele categorice. Un set de abordări se bazează pe valori ale distanței, cum ar fi distanța euclidiană sau distanța Manhattan, în timp ce un alt set de abordări acoperă diverse valori statistice, cum ar fi testul chi-pătrat sau Lambda lui Goodman Kruskal, care a fost inițial dezvoltat pentru a analiza tabelele de urgență. Acum, puristul matematic de acolo ar putea argumenta corect că valorile distanței nu pot fi o metrică de corelație, deoarece corelația trebuie să fie independentă de unitate, care distanța prin definiție nu poate fi. Sunt de acord cu acest argument și îl voi sublinia mai târziu, dar deocamdată îl includ, deoarece mulți oameni folosesc distanța ca proxy pentru corelația dintre variabilele categorice. În plus, în anumite situații speciale există o conversie ușoară între corelația Pearson și distanța euclidiană.
mai jos, enumerăm câteva valori comune în ambele abordări și apoi discutăm câteva puncte forte și puncte slabe ale celor două abordări generale. Apoi, enumerăm câteva valori utilizate în mod obișnuit în ambele abordări și încheiem cu o scurtă discuție despre meritele lor relative.
Metrici de distanță
deși conceptul de „distanță” nu este adesea sinonim cu „corelație”, valorile de distanță pot fi totuși utilizate pentru a calcula similitudinea dintre vectori, care este conceptual similar cu alte măsuri de corelație. Există multe alte valori de distanță, iar intenția mea aici este mai puțin să vă prezint toate modurile diferite în care distanța dintre două puncte poate fi calculată și mai mult să introduc noțiunea generală de valori de distanță ca o abordare pentru a măsura similitudinea sau corelația. Am observat zece valori de distanță utilizate în mod obișnuit mai jos în acest scop. Dacă sunteți interesat să aflați mai multe despre aceste valori, definițiile și formulele pot fi găsite aici.
suma distanței Absolute
suma distanței pătrate
eroare absolută medie
distanța euclidiană
distanța Manhattan
distanța tablei de șah
distanța Minkowski
distanța Canberra
distanța cosinusului
distanța Hamming
tabelul de urgență analiza
atunci când comparăm două variabile categorice, prin numărarea frecvențelor categoriilor Putem converti cu ușurință vectorii originali în tabele de urgență. De exemplu, imaginați-vă că ați vrut să vedeți dacă există o corelație între a fi bărbat și a obține o subvenție științifică (din păcate, există o corelație, dar asta este o problemă pentru o altă zi). Datele dvs. ar putea avea două coloane în acest caz — una pentru sex care ar fi bărbat sau femeie (presupuneți o lume binară pentru acest caz) și alta pentru grant (Da sau nu). Am putea lua datele din aceste coloane și să le reprezentăm ca o tabulare încrucișată prin calcularea frecvențelor pereche