an overview of correlation measures between categorical and continuous variables

Correlation between two discrete or categorical variables

genericamente falando, there are two different ways to find association between categorical variables. Um conjunto de abordagens dependem de distância de métricas, como distância Euclidiana ou a distância de Manhattan, enquanto outro conjunto de abordagens abrangem diversos dados estatísticos, como o teste qui-quadrado ou Goodman Kruskal do lambda, o qual foi inicialmente desenvolvido para analisar tabelas de contingência. Agora o purista matemático lá fora poderia argumentar corretamente que métricas de distância não podem ser uma métrica de correlação, uma vez que a correlação precisa ser independente da unidade que a distância por definição não pode ser. Concordo com esse argumento e vou salientá-lo mais tarde, mas por agora incluo-o, uma vez que muitas pessoas usam a distância como um substituto para a correlação entre variáveis categóricas. Além disso, em certas situações especiais há uma conversão fácil entre correlação de Pearson e distância Euclidiana.

abaixo, enumero algumas métricas comuns em ambas as abordagens e depois discuto alguns pontos fortes e fracos relativos das duas grandes abordagens. Em seguida, eu listar algumas métricas comumente usadas dentro de ambas as abordagens e terminar com uma breve discussão de seus méritos relativos.

métricas de distância

embora o conceito de “distância” não seja muitas vezes sinônimo de “correlação”, métricas de distância podem, no entanto, ser usadas para calcular a semelhança entre vetores, que é conceitualmente semelhante a outras medidas de correlação. Há muitas outras métricas de distância, e minha intenção aqui é menos a apresentá-lo a todas as diferentes formas em que a distância entre dois pontos pode ser calculado, e muito mais para introduzir a noção geral de métricas de distância como uma abordagem para medir a similaridade ou de correlação. Eu observei dez métricas de distância comumente usadas abaixo para este propósito. Se você está interessado em aprender mais sobre estas métricas, definições e fórmulas podem ser encontradas aqui.distância Euclidiana distância de Manhattan distância de Chessboard distância de Minkowski distância de Canberra distância de cosseno distância de Hamming distância de Hamming /p >

ao comparar duas variáveis categóricas, contando as frequências das categorias podemos facilmente converter os vetores originais em tabelas de contingência. Por exemplo, imagine que você queria ver se há uma correlação entre ser um homem e obter uma bolsa de ciência (infelizmente, há uma correlação, mas isso é um assunto para outro dia). Seus dados podem ter duas colunas neste caso-uma para gênero que seria Masculino Ou Feminino (assumir um mundo binário para este caso) e outra para grant (Sim ou não). Podemos pegar os dados de uma dessas colunas e representá-lo como uma tabulação cruzada calculando-se os pares de frequências

Dados originais da tabela com duas colunas de ter alguns dados categóricos

Cruz em forma Tabular as variáveis categóricas e apresentando os mesmos dados como um tabela de contingência

tabelas de contingência ou tabulação cruzada exibem a distribuição de frequência multivariada das variáveis e são fortemente utilizados na investigação científica em várias disciplinas. Devido ao seu uso histórico pesado em análises estatísticas, uma família de testes foram desenvolvidos para determinar a significância da diferença entre duas categorias de uma variável em comparação com outra variável categórica. Uma abordagem popular para variáveis dicotômicas (ou seja, variáveis com apenas duas categorias) é construída sobre a distribuição chi-ao quadrado. Não estamos interessados em testar o significado estatístico, no entanto, estamos mais interessados no tamanho do efeito e, especificamente, na força de associação entre as duas variáveis. Felizmente, vários coeficientes foram definidos para este fim, incluindo vários que usam a estatística do Qui-quadrado. Aqui estão alguns exemplos:

  1. Goodman Kruskal do lambda
  2. Phi co-eficiente (usa chi-quadrado estatística)
  3. Cramer V (usa chi-quadrado estatística)
  4. Tschuprow T (usa chi-quadrado estatística)
  5. coeficiente de Contingência C (usa chi-quadrado estatística)

em relação pontos fortes e fracos

Distância de métricas, pelo menos para mim, são mais intuitivo e fácil de entender. Faz sentido que se uma variável é perfeitamente preditiva de outra variável, quando plotada em um espaço dimensional elevado, as duas variáveis sobrepõem-se ou estão muito próximas umas das outras. Uma vez que acredito que os métodos que se usa para analisar dados são facilmente explicáveis aos Não-estaticistas sempre que possível , usar a distância tem um apelo óbvio. Mas uma grande desvantagem de abordagens que dependem de métricas de distância é que eles são dependentes de escala. Se você escalar sua entrada por um fator de 10, qualquer métrica de distância será sensível a ela e mudará significativamente. Este comportamento obviamente não é desejável para entender a bondade do ajuste entre as diferentes características. Além disso, métricas de distância não são facilmente comparáveis entre pares variáveis com diferentes número de categorias. Deixe-me ilustrar isso com um exemplo, digamos que nós temos 3 colunas — sexo com duas categorias (Masculino representado por 0 e Feminino representado por 1), classes com três categorias (Excelente representado por 2, Boa representado por 1 e Pobres representado por 0) e de admissão de faculdade (Sim, representado por 1 e representado por 0). Queremos comparar se o sexo está mais correlacionado com a admissão na faculdade ou se as notas estão mais correlacionadas com a admissão na faculdade. Uma vez que, os valores das notas variam de enquanto o sexo varia da distância entre a admissão na faculdade (range — ) e notas serão artificialmente inflacionados em comparação com a distância entre a admissão na faculdade e o sexo. Este problema pode ser facilmente removido embora se você um-hot codificar todas as variáveis em sua matriz antes de computar correlações tais que cada variável categórica terá apenas dois valores-Sim (1) ou Não (0).

outra desvantagem potencialmente maior de usar métricas de distância é que às vezes não há uma conversão direta de uma métrica de distância em uma bondade do coeficiente de ajuste que é o que queremos que estamos mais interessados para os propósitos deste post no blog. Devo notar aqui que se você escalar e centrar seus dados contínuos, a distância Euclidiana ainda pode ser usada, uma vez que nestes casos há uma conversão fácil da distância Euclidiana para correlação de Pearson. Claro, a outra solução que se poderia tentar seria usar diferentes critérios de corte para correlações entre duas variáveis discretas em comparação com duas variáveis contínuas. Mas, para mim, isso não é ideal, já que queremos uma escala universal para comparar correlações entre todos os pares variáveis.embora as técnicas estatísticas baseadas na análise de tabelas de contingência sofram de menos desvantagens em comparação com as métricas à distância, existem questões importantes que surgem principalmente da forma como o teste de significância estatística (por exemplo, o teste de significância estatística).: a estatística do Qui-quadrado) é convertida em uma medida de associação. Alguns dos coeficientes como Phi são definidos apenas para tabelas 2×2. Além disso, o coeficiente de contingência C sofre da desvantagem de não atingir um valor máximo de 1. O valor mais alto de C para uma tabela 2×2 é 0,707 e para uma tabela 4×4 é 0,870. Isto significa que C não pode ser usado para comparar associações entre tabelas com diferentes números de categorias ou em tabelas com uma mistura de variáveis categóricas e contínuas. Além disso, outras medidas como Cramer’s V podem ser um estimador fortemente tendencioso, especialmente em comparação com correlações entre variáveis contínuas e tenderão a sobrestimar a força da Associação. Uma maneira de mitigar o viés no V de Cramer é usar uma espécie de correção de viés sugerida aqui. The bias corrected Cramer’s V shown to typically have a much smaller mean square error.

Deixe uma resposta

O seu endereço de email não será publicado.