Een overzicht van correlatiemetingen tussen categorische en continue variabelen

correlatie tussen twee discrete of categorische variabelen

in het algemeen zijn er twee verschillende manieren om een verband tussen categorische variabelen te vinden. Een set van benaderingen zijn gebaseerd op afstand metrics zoals Euclidische afstand of Manhattan afstand, terwijl een andere set van benaderingen omvatten verschillende statistische metrics, zoals chi-square test of Goodman Kruskal ‘ s lambda, die in eerste instantie werd ontwikkeld om contingency tabellen te analyseren. De wiskundige purist kan terecht stellen dat afstandsmetingen geen correlatiemetriek kunnen zijn omdat correlatie onafhankelijk moet zijn van de eenheid welke afstand per definitie niet kan zijn. Ik ben het eens met dat argument en Ik zal het later op wijzen, maar voor nu neem ik het op omdat veel mensen Afstand gebruiken als een proxy voor correlatie tussen categorische variabelen. Bovendien is er in bepaalde speciale situaties een gemakkelijke conversie tussen Pearson correlatie en Euclidische afstand.

hieronder Som ik enkele gemeenschappelijke metrics op binnen beide benaderingen en bespreek vervolgens enkele relatieve sterke en zwakke punten van de twee brede benaderingen. Dan, ik lijst een aantal veelgebruikte metrics binnen beide benaderingen en eindigen met een korte bespreking van hun relatieve verdiensten.

afstandsmetingen

hoewel het begrip “afstand” vaak niet synoniem is met” correlatie”, kunnen afstandsmetingen niettemin worden gebruikt om de gelijkenis tussen vectoren te berekenen, die conceptueel vergelijkbaar is met andere correlatiemetingen. Er zijn veel andere afstandsmetingen, en mijn bedoeling hier is minder om u te introduceren in alle verschillende manieren waarop de afstand tussen twee punten kan worden berekend, en meer om de Algemene notie van afstandsmetingen te introduceren als een benadering om gelijkenis of correlatie te meten. Ik heb opgemerkt tien veelgebruikte afstand metrics hieronder voor dit doel. Als u geïnteresseerd bent in het leren van meer over deze statistieken, definities en formules zijn hier te vinden.

  1. de Som van de Absolute Afstand
  2. de Som van de Kwadratische Afstand
  3. de Gemiddelde Absolute Fout
  4. de Euclidische Afstand
  5. Manhattan Afstand
  6. Schaakbord Afstand
  7. Minkowski Afstand
  8. Canberra Afstand
  9. Cosinus Afstand
  10. Hamming-Afstand

Contingency Tabel Analyse

Bij het vergelijken van twee categorische variabelen, door het tellen van de frequenties van de categorieën die we gemakkelijk kunnen zetten in de oorspronkelijke vectoren in contingency tables. Bijvoorbeeld, stel je voor dat je wilde zien of er een correlatie tussen een man en het krijgen van een science grant (helaas, er is een correlatie, maar dat is een kwestie voor een andere dag). Uw gegevens kunnen in dit geval twee kolommen hebben — een voor geslacht dat Mannelijk of vrouwelijk zou zijn (stel een binaire wereld voor dit geval) en een andere voor subsidie (Ja of Nee). We kunnen de gegevens uit de kolommen en verklaart het als een cross-tabulatie door het berekenen van de pair-wise frequenties

Originele data tabel met twee kolommen met enige categorische data

Kruis Tabelleren van de categorische variabelen en de presentatie van de gegevens van een contingency table

Contingency tables of cross tabulation geven de multivariate frequentieverdeling van variabelen weer en worden veel gebruikt in wetenschappelijk onderzoek over verschillende disciplines. Vanwege hun zware Historische gebruik in statistische analyses, is een familie van tests ontwikkeld om de significantie van het verschil tussen twee categorieën van een variabele in vergelijking met een andere categorische variabele te bepalen. Een populaire benadering voor dichotome variabelen (d.w.z. variabelen met slechts twee categorieën) is gebaseerd op de chi-kwadraat verdeling. We zijn echter niet geïnteresseerd in het testen van de statistische significantie, we zijn meer geïnteresseerd in effectgrootte en in het bijzonder in de sterkte van de associatie tussen de twee variabelen. Gelukkig zijn voor dit doel verschillende coëfficiënten gedefinieerd, waaronder een aantal die gebruik maken van de chi-kwadraat statistiek. Hier zijn enkele voorbeelden:

  1. Goodman Kruskal ’s lambda
  2. Phi co-efficiënt (gebruikt chi-kwadraat statistiek)
  3. Cramer’ s V (gebruikt chi-kwadraat statistiek)
  4. Tschuprow ‘ S T (gebruikt chi-kwadraat statistiek)
  5. Contingency C (gebruikt chi-kwadraat statistiek)

relatieve sterktes en zwaktes

afstandsmetingen, ten minste tot ik ben intuïtiever en makkelijker te begrijpen. Het is logisch dat als een variabele perfect voorspellend is voor een andere variabele, wanneer uitgezet in een hoge dimensionale ruimte, de twee variabelen zullen overlay of zeer dicht bij elkaar. Aangezien ik geloof dat methoden die men gebruikt om gegevens te analyseren gemakkelijk verklaarbaar zijn voor niet-statistici waar mogelijk, met behulp van afstand heeft een duidelijke aantrekkingskracht. Maar een groot nadeel van benaderingen die vertrouwen op afstand metrics is dat ze schaal afhankelijk zijn. Als u uw invoer met een factor 10 schaalt, zal elke afstandsmetriek gevoelig zijn en aanzienlijk veranderen. Dit gedrag is uiteraard niet wenselijk om de goedheid van pasvorm tussen verschillende functies te begrijpen. Bovendien, afstand metrics zijn niet gemakkelijk vergelijkbaar tussen variabele paren met verschillend aantal categorieën. Laat me dit illustreren met een voorbeeld — laten we zeggen dat we 3 kolommen hebben — geslacht met twee categorieën (Man vertegenwoordigd door 0 en vrouw vertegenwoordigd door 1), rangen met drie categorieën (uitstekend vertegenwoordigd door 2, goed vertegenwoordigd door 1 en slecht vertegenwoordigd door 0) en toelating tot de universiteit (Ja vertegenwoordigd door 1 En Nee vertegenwoordigd door 0). We willen vergelijken of geslacht meer gecorreleerd is met toelating tot de universiteit of cijfers meer gecorreleerd zijn met toelating tot de universiteit. Aangezien, de waarden van rangen variëren van terwijl geslacht varieert van de afstand tussen college toelating (range -) en rangen zal kunstmatig worden opgeblazen in vergelijking met de afstand tussen college toelating en geslacht. Dit probleem kan echter gemakkelijk worden verwijderd als je one-hot alle variabelen in je matrix codeert voordat je correlaties berekent, zodat elke categorische variabele slechts twee waarden heeft-Ja (1) of nee (0).

een ander potentieel groter nadeel van het gebruik van afstand metrics is dat er soms geen eenvoudige conversie van een afstand metriek in een goedheid van fit coëfficiënt die is wat we willen we meer geïnteresseerd in voor de doeleinden van deze blog post. Ik moet hier opmerken dat als u uw continue gegevens schaalt en centreert, Euclidische afstand nog steeds gebruikt kan worden, omdat in deze gevallen er een eenvoudige conversie is van Euclidische afstand naar Pearson correlatie. Natuurlijk, de andere oplossing die men zou kunnen proberen zou zijn om verschillende cutoff criteria te gebruiken voor correlaties tussen twee discrete variabelen in vergelijking met twee continue variabelen. Maar, volgens mij is dat niet ideaal omdat we een universele schaal willen om correlaties tussen alle variabele paren te vergelijken.

hoewel statistische technieken die gebaseerd zijn op het analyseren van contingentietabellen minder nadelen hebben in vergelijking met afstandsmetingen, zijn er niettemin belangrijke kwesties die voornamelijk voortvloeien uit de wijze waarop de statistische significantietest (bijvoorbeeld: chi-kwadraat statistiek) wordt omgezet in een maat van associatie. Sommige van de coëfficiënten zoals Phi worden alleen gedefinieerd voor 2×2 tabellen. Bovendien heeft de coëfficiënt voor onvoorziene omstandigheden C het nadeel dat deze geen maximumwaarde van 1 bereikt. De hoogste waarde van C voor een 2×2 tabel is 0,707 en voor een 4×4 tabel is het 0,870. Dit betekent dat C niet kan worden gebruikt om associaties te vergelijken tussen tabellen met verschillende aantallen categorieën of in tabellen met een mix van categorische en continue variabelen. Verder, Andere maatregelen zoals Cramer ‘ s V kan een zwaar bevooroordeelde schatter zijn, vooral in vergelijking met correlaties tussen continue variabelen en zal de neiging om de sterkte van de associatie te overschatten. Een manier om de vooringenomenheid in Cramer ‘ s V te verzachten is om een soort vooringenomenheid correctie te gebruiken die hier wordt voorgesteld. De bias gecorrigeerd Cramer ‘ s V getoond om typisch hebben een veel kleinere gemiddelde vierkante fout.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.