Correlazione tra due variabili discrete o categoriali
In linea di massima, ci sono due modi diversi per trovare l’associazione tra variabili categoriali. Un insieme di approcci si basa su metriche di distanza come la distanza euclidea o la distanza di Manhattan mentre un altro insieme di approcci copre varie metriche statistiche come il test del chi-quadrato o il lambda di Goodman Kruskal, che è stato inizialmente sviluppato per analizzare le tabelle di contingenza. Ora il purista matematico là fuori potrebbe correttamente sostenere che le metriche di distanza non possono essere una metrica di correlazione poiché la correlazione deve essere indipendente dall’unità, la cui distanza per definizione non può essere. Sono d’accordo con questo argomento e lo indicherò più tardi, ma per ora lo includo poiché molte persone usano la distanza come proxy per la correlazione tra variabili categoriali. Inoltre, in alcune situazioni speciali c’è una facile conversione tra la correlazione di Pearson e la distanza euclidea.
Di seguito, elenco alcune metriche comuni all’interno di entrambi gli approcci e quindi discuto alcuni punti di forza e di debolezza relativi dei due approcci generali. Quindi, elenco alcune metriche comunemente utilizzate all’interno di entrambi gli approcci e termino con una breve discussione sui loro meriti relativi.
Metriche di distanza
Sebbene il concetto di “distanza” spesso non sia sinonimo di “correlazione”, le metriche di distanza possono comunque essere utilizzate per calcolare la somiglianza tra vettori, che è concettualmente simile ad altre misure di correlazione. Ci sono molte altre metriche di distanza, e il mio intento qui è meno di presentarvi tutti i diversi modi in cui la distanza tra due punti può essere calcolata, e più per introdurre la nozione generale di metriche di distanza come un approccio per misurare la somiglianza o la correlazione. Ho notato dieci metriche di distanza comunemente usate di seguito per questo scopo. Se siete interessati a saperne di più su queste metriche, definizioni e formule può essere trovato qui.
- Somma di Distanza Assoluta
- Somma del Quadrato della Distanza
- Media-Errore Assoluto
- Distanza Euclidea
- Manhattan Distanza
- Scacchiera di Distanza
- Distanza di Minkowski
- Canberra Distanza
- Coseno di Distanza
- Distanza di Hamming
Analisi di tabelle di Contingenza
Quando si confrontano due variabili categoriche, contando le frequenze delle categorie si può facilmente convertire i vettori originali in tabelle di contingenza. Ad esempio, immagina di voler vedere se c’è una correlazione tra essere un uomo e ottenere una borsa di studio scientifica (sfortunatamente, c’è una correlazione ma è una questione per un altro giorno). I tuoi dati potrebbero avere due colonne in questo caso: una per genere che sarebbe Maschio o Femmina (assumere un mondo binario per questo caso) e un’altra per grant (Sì o No). Siamo riusciti a prendere i dati da queste colonne e rappresentarlo come una tabulazione incrociata calcolando il pair-wise frequenze
Le tabelle di contingenza o la tabulazione incrociata mostrano la distribuzione di frequenza multivariata delle variabili e sono molto utilizzate nella ricerca scientifica tra le discipline. A causa del loro pesante uso storico nelle analisi statistiche, è stata sviluppata una famiglia di test per determinare il significato della differenza tra due categorie di una variabile rispetto a un’altra variabile categoriale. Un approccio popolare per le variabili dicotomiche (cioè variabili con solo due categorie) è costruito sulla distribuzione del chi-quadrato. Non siamo interessati a testare la significatività statistica tuttavia, siamo più interessati alla dimensione dell’effetto e in particolare alla forza dell’associazione tra le due variabili. Per fortuna, diversi coefficienti sono stati definiti per questo scopo, tra cui diversi che utilizzano la statistica chi-quadrato. Ecco alcuni esempi:
- Goodman e Kruskal lambda
- Phi co-efficiente (utilizza il chi quadrato di statistica)
- Cramer V (utilizza il chi quadrato di statistica)
- Tschuprow T (utilizza il chi quadrato di statistica)
- coefficiente di Contingenza C (utilizza il chi quadrato di statistica)
Relativi punti di forza e di debolezza
a Distanza metrica, almeno per me, sono più intuitiva e facile da capire. Ha senso che se una variabile è perfettamente predittiva di un’altra variabile, quando tracciata in uno spazio ad alta dimensione, le due variabili si sovrapporranno o saranno molto vicine l’una all’altra. Poiché credo che i metodi utilizzati per analizzare i dati siano facilmente spiegabili ai non statistici quando possibile, l’uso della distanza ha un ovvio appeal. Ma un grande svantaggio degli approcci che si basano sulle metriche di distanza è che dipendono dalla scala. Se si ridimensiona l’input di un fattore 10, qualsiasi metrica di distanza sarà sensibile ad esso e cambierà in modo significativo. Questo comportamento non è ovviamente desiderabile per capire la bontà di adattamento tra diverse caratteristiche. Inoltre, le metriche di distanza non sono facilmente confrontabili tra coppie variabili con un numero diverso di categorie. Permettetemi di illustrare questo con un esempio-diciamo che abbiamo 3 colonne-genere con due categorie (Maschio rappresentato da 0 e Femmina rappresentata da 1), gradi con tre categorie (Eccellente rappresentato da 2, Buono rappresentato da 1 e povero rappresentato da 0) e ammissione all’università (Sì rappresentato da 1 e No rappresentato da 0). Vogliamo confrontare se il genere è più correlato con l “ammissione al college o gradi sono più correlati con l” ammissione al college. Da, i valori di gradi vanno da mentre genere varia dalla distanza tra l’ammissione al college (range — ) e gradi saranno artificialmente gonfiati rispetto alla distanza tra l’ammissione al college e di genere. Questo problema può essere facilmente rimosso se si codificano tutte le variabili nella matrice prima di calcolare le correlazioni in modo tale che ogni variabile categoriale abbia solo due valori: Sì (1) o No (0).
Un altro svantaggio potenzialmente più grande dell’utilizzo delle metriche di distanza è che a volte non c’è una semplice conversione di una metrica di distanza in una bontà del coefficiente di adattamento che è ciò che vogliamo che siamo più interessati ai fini di questo post del blog. Dovrei notare qui che se si ridimensionano e centrano i dati continui, la distanza euclidea potrebbe ancora essere utilizzata poiché in questi casi esiste una facile conversione della distanza euclidea alla correlazione di Pearson. Naturalmente, l’altra soluzione che si potrebbe provare sarebbe quella di utilizzare diversi criteri di cutoff per le correlazioni tra due variabili discrete rispetto a due variabili continue. Ma, secondo me, questo non è l’ideale poiché vogliamo una scala universale per confrontare le correlazioni tra tutte le coppie di variabili.
Sebbene le tecniche statistiche basate sull’analisi delle tabelle di contingenza soffrano di meno inconvenienti rispetto alle metriche di distanza, ci sono comunque problemi importanti che derivano principalmente dal modo in cui il test di significatività statistica (ad esempio: statistica chi-quadrato) viene convertito in una misura di associazione. Alcuni dei coefficienti come Phi sono definiti solo per le tabelle 2×2. Inoltre, il coefficiente di contingenza C soffre dello svantaggio di non raggiungere un valore massimo di 1. Il valore più alto di C per una tabella 2×2 è 0.707 e per una tabella 4×4 è 0.870. Ciò significa che C non può essere utilizzato per confrontare le associazioni tra tabelle con numeri diversi di categorie o in tabelle con un mix di variabili categoriali e continue. Inoltre, altre misure come V di Cramer possono essere uno stimatore fortemente distorto, specialmente rispetto alle correlazioni tra variabili continue e tenderanno a sovrastimare la forza dell’associazione. Un modo per mitigare il bias nella V di Cramer è usare una sorta di correzione del bias suggerita qui. Il bias corretto V di Cramer ha mostrato di avere in genere un errore quadrato medio molto più piccolo.