o prezentare generală a măsurilor de corelație între variabilele categorice și continue

corelația dintre două variabile discrete sau categorice

în linii mari, există două moduri diferite de a găsi asocierea între variabilele categorice. Un set de abordări se bazează pe valori ale distanței, cum ar fi distanța euclidiană sau distanța Manhattan, în timp ce un alt set de abordări acoperă diverse valori statistice, cum ar fi testul chi-pătrat sau Lambda lui Goodman Kruskal, care a fost inițial dezvoltat pentru a analiza tabelele de urgență. Acum, puristul matematic de acolo ar putea argumenta corect că valorile distanței nu pot fi o metrică de corelație, deoarece corelația trebuie să fie independentă de unitate, care distanța prin definiție nu poate fi. Sunt de acord cu acest argument și îl voi sublinia mai târziu, dar deocamdată îl includ, deoarece mulți oameni folosesc distanța ca proxy pentru corelația dintre variabilele categorice. În plus, în anumite situații speciale există o conversie ușoară între corelația Pearson și distanța euclidiană.

mai jos, enumerăm câteva valori comune în ambele abordări și apoi discutăm câteva puncte forte și puncte slabe ale celor două abordări generale. Apoi, enumerăm câteva valori utilizate în mod obișnuit în ambele abordări și încheiem cu o scurtă discuție despre meritele lor relative.

Metrici de distanță

deși conceptul de „distanță” nu este adesea sinonim cu „corelație”, valorile de distanță pot fi totuși utilizate pentru a calcula similitudinea dintre vectori, care este conceptual similar cu alte măsuri de corelație. Există multe alte valori de distanță, iar intenția mea aici este mai puțin să vă prezint toate modurile diferite în care distanța dintre două puncte poate fi calculată și mai mult să introduc noțiunea generală de valori de distanță ca o abordare pentru a măsura similitudinea sau corelația. Am observat zece valori de distanță utilizate în mod obișnuit mai jos în acest scop. Dacă sunteți interesat să aflați mai multe despre aceste valori, definițiile și formulele pot fi găsite aici.

  1. suma distanței Absolute
  2. suma distanței pătrate
  3. eroare absolută medie
  4. distanța euclidiană
  5. distanța Manhattan
  6. distanța tablei de șah
  7. distanța Minkowski
  8. distanța Canberra
  9. distanța cosinusului
  10. distanța Hamming

tabelul de urgență analiza

atunci când comparăm două variabile categorice, prin numărarea frecvențelor categoriilor Putem converti cu ușurință vectorii originali în tabele de urgență. De exemplu, imaginați-vă că ați vrut să vedeți dacă există o corelație între a fi bărbat și a obține o subvenție științifică (din păcate, există o corelație, dar asta este o problemă pentru o altă zi). Datele dvs. ar putea avea două coloane în acest caz — una pentru sex care ar fi bărbat sau femeie (presupuneți o lume binară pentru acest caz) și alta pentru grant (Da sau nu). Am putea lua datele din aceste coloane și să le reprezentăm ca o tabulare încrucișată prin calcularea frecvențelor pereche

tabel de date original cu două coloane având unele date categorice

tabularea încrucișată a variabilelor categorice și prezentarea acelorași date ca a tabelul de urgență

tabelele de urgență sau tabelarea încrucișată afișează distribuția de frecvență multivariată a variabilelor și sunt utilizate intens în cercetarea științifică între discipline. Datorită utilizării lor istorice grele în analizele statistice, a fost dezvoltată o familie de teste pentru a determina semnificația diferenței dintre două categorii ale unei variabile în comparație cu o altă variabilă categorică. O abordare populară pentru variabilele dihotomice (adică variabile cu doar două categorii) este construită pe distribuția chi-pătrat. Nu suntem interesați să testăm semnificația statistică cu toate acestea, suntem mai interesați de dimensiunea efectului și în special de puterea asocierii dintre cele două variabile. Din fericire, au fost definiți mai mulți coeficienți în acest scop, inclusiv mai mulți care utilizează statistica chi-pătrat. Iată câteva exemple:

  1. Goodman Kruskal ‘s lambda
  2. Phi co-efficient (folosește statistica chi-pătrat)
  3. Cramer’ s V (folosește statistica chi-pătrat)
  4. tschuprow ‘ S T (folosește statistica chi-pătrat)
  5. coeficientul de contingență c (folosește statistica chi-pătrat)

punctele forte și punctele slabe Relative

distanța valorile, cel puțin pentru mine, sunt mai intuitive și mai ușor de înțeles. Este logic că, dacă o variabilă este perfect predictivă pentru o altă variabilă, atunci când este reprezentată într-un spațiu dimensional înalt, cele două variabile se vor suprapune sau vor fi foarte apropiate una de cealaltă. Deoarece cred că metodele pe care le folosim pentru a analiza datele sunt ușor de explicat non-statisticienilor ori de câte ori este posibil , utilizarea distanței are un apel evident. Dar un mare dezavantaj al abordărilor care se bazează pe valorile distanței este că acestea sunt dependente de scară. Dacă vă scalați intrarea cu un factor de 10, orice valoare a distanței va fi sensibilă la aceasta și se va schimba semnificativ. Acest comportament nu este, evident, de dorit să se înțeleagă bunătatea de potrivire între diferite caracteristici. În plus, valorile distanței nu sunt ușor comparabile între perechile variabile cu un număr diferit de categorii. Permiteți — mi să ilustrez acest lucru cu un exemplu — să spunem că avem 3 coloane-gen cu două categorii (bărbat reprezentat de 0 și femeie reprezentat de 1), note cu trei categorii (excelent reprezentat de 2, Bun reprezentat de 1 și slab reprezentat de 0) și admitere la facultate (Da reprezentat de 1 și nu reprezentat de 0). Vrem să comparăm dacă sexul este mai corelat cu admiterea la facultate sau notele sunt mai corelate cu admiterea la facultate. Întrucât, valorile notelor variază de la în timp ce genul variază de la distanța dintre admiterea la facultate (range — ) și notele vor fi umflate artificial în comparație cu distanța dintre admiterea la facultate și sex. Această problemă poate fi îndepărtată cu ușurință, deși dacă codificați toate variabilele din matricea dvs. înainte de a calcula corelațiile, astfel încât fiecare variabilă categorică să aibă doar două valori — Da (1) sau Nu (0).

un alt dezavantaj potențial mai mare al utilizării valorilor la distanță este că uneori nu există o conversie simplă a unei valori la distanță într-un coeficient de potrivire a bunătății, ceea ce ne dorim să ne intereseze mai mult în scopul acestei postări pe blog. Ar trebui să menționez aici că, dacă scalați și centrați datele dvs. continue, distanța euclidiană ar putea fi încă utilizată, deoarece în aceste cazuri există o conversie ușoară a distanței euclidiene în corelația Pearson. Desigur, cealaltă soluție pe care am putea-o încerca ar fi utilizarea unor criterii limită diferite pentru corelațiile dintre două variabile discrete în comparație cu două variabile continue. Dar, în opinia mea, acest lucru nu este ideal, deoarece dorim o scară universală pentru a compara corelațiile dintre toate perechile variabile.

deși tehnicile statistice bazate pe analiza tabelelor de urgență suferă de mai puține dezavantaje în comparație cu măsurătorile la distanță, există totuși probleme importante care apar în cea mai mare parte din modul în care testul de semnificație statistică (de exemplu: chi-pătrat statistică) este transformată într-o măsură de asociere. Unii dintre coeficienți, cum ar fi Phi, sunt definiți numai pentru tabelele 2×2. În plus, coeficientul de urgență C suferă de dezavantajul că nu atinge o valoare maximă de 1. Cea mai mare valoare a lui C pentru un tabel 2×2 este 0,707, iar pentru un tabel 4×4 este 0,870. Aceasta înseamnă că C nu poate fi utilizat pentru a compara asociațiile între tabele cu numere diferite de categorii sau în tabele cu un amestec de variabile categorice și continue. Mai mult, alte măsuri, cum ar fi v-ul lui Cramer, pot fi un estimator puternic părtinitor, în special în comparație cu corelațiile dintre variabilele continue și vor tinde să supraestimeze puterea Asociației. O modalitate de a atenua părtinirea în V-ul lui Cramer este de a folosi un fel de corecție a părtinirii sugerată aici. Părtinirea corectată a lui Cramer v s-a dovedit că are de obicei o eroare pătrată medie mult mai mică.

Lasă un răspuns

Adresa ta de email nu va fi publicată.