Correlación entre dos variables discretas o categóricas
En términos generales, hay dos formas diferentes de encontrar la asociación entre variables categóricas. Un conjunto de enfoques se basa en métricas de distancia, como la distancia euclidiana o la distancia de Manhattan, mientras que otro conjunto de enfoques abarca varias métricas estadísticas, como la prueba de chi-cuadrado o la lambda de Goodman Kruskal, que se desarrolló inicialmente para analizar tablas de contingencia. Ahora, el purista matemático podría argumentar correctamente que las métricas de distancia no pueden ser una métrica de correlación, ya que la correlación debe ser independiente de la unidad que, por definición, la distancia no puede ser. Estoy de acuerdo con ese argumento y lo señalaré más adelante, pero por ahora lo incluyo, ya que muchas personas usan la distancia como un proxy para la correlación entre variables categóricas. Además, en ciertas situaciones especiales hay una conversión fácil entre la correlación de Pearson y la distancia euclidiana.
A continuación, enumero algunas métricas comunes dentro de ambos enfoques y luego discuto algunas fortalezas y debilidades relativas de los dos enfoques amplios. Luego, enumero algunas métricas comúnmente utilizadas dentro de ambos enfoques y termino con una breve discusión de sus méritos relativos.
Métricas de distancia
Aunque el concepto de «distancia» a menudo no es sinónimo de «correlación», las métricas de distancia pueden usarse para calcular la similitud entre vectores, que es conceptualmente similar a otras medidas de correlación. Hay muchas otras métricas de distancia, y mi intención aquí es menos presentarles las diferentes formas en que se puede calcular la distancia entre dos puntos, y más introducir la noción general de métricas de distancia como un enfoque para medir la similitud o correlación. He anotado diez métricas de distancia comúnmente utilizadas a continuación para este propósito. Si está interesado en obtener más información sobre estas métricas, puede encontrar definiciones y fórmulas aquí.
- Suma de Distancia Absoluta
- Suma de Distancia Cuadrada
- Error Absoluto medio
- Distancia Euclidiana
- Distancia de Manhattan
- Distancia del tablero de ajedrez
- Distancia de Minkowski
- Distancia de Canberra
- Distancia de coseno
- Distancia de Hamming
Análisis de Tabla de Contingencia
Al comparar dos variables categóricas, contando las frecuencias de las categorías podemos convertir fácilmente los vectores originales en tablas de contingencia. Por ejemplo, imagine que desea ver si hay una correlación entre ser hombre y obtener una beca de ciencias (desafortunadamente, hay una correlación, pero eso es un asunto para otro día). Sus datos pueden tener dos columnas en este caso, una para el género, que sería Masculino o Femenino (supongamos un mundo binario para este caso) y otra para grant (Sí o No). Podríamos tomar los datos de estas columnas y la representan como una tabulación cruzada mediante el cálculo de los pares de frecuencias
Las tablas de contingencia o tabulación cruzada muestran la distribución de frecuencias multivariadas de las variables y se utilizan en gran medida en la investigación científica en todas las disciplinas. Debido a su fuerte uso histórico en análisis estadísticos, se ha desarrollado una familia de pruebas para determinar la importancia de la diferencia entre dos categorías de una variable en comparación con otra variable categórica. Un enfoque popular para variables dicotómicas (es decir, variables con solo dos categorías) se basa en la distribución de chi cuadrado. No estamos interesados en probar la significación estadística, sin embargo, estamos más interesados en el tamaño del efecto y, específicamente, en la fuerza de asociación entre las dos variables. Afortunadamente, se han definido varios coeficientes para este propósito, incluidos varios que utilizan la estadística chi-cuadrado. Estos son algunos ejemplos:
- Lambda de Goodman Kruskal
- Coeficiente de Phi (utiliza el estadístico chi cuadrado)
- V de Cramer (utiliza el estadístico chi cuadrado)
- Tschuprow (utiliza el estadístico chi cuadrado)
- Coeficiente de contingencia C (utiliza el estadístico chi cuadrado)
Fortalezas y debilidades relativas
Métricas de distancia, al menos para mí, son más intuitivos y fáciles de entender. Tiene sentido que si una variable es perfectamente predictiva de otra variable, cuando se traza en un espacio de alta dimensión, las dos variables se superpondrán o estarán muy cerca una de la otra. Dado que creo que los métodos que se usan para analizar datos son fácilmente explicables para los no estadísticos siempre que sea posible, el uso de la distancia tiene un atractivo obvio. Pero un gran inconveniente de los enfoques que dependen de las métricas de distancia es que dependen de la escala. Si escala su entrada en un factor de 10, cualquier métrica de distancia será sensible a ella y cambiará significativamente. Obviamente, este comportamiento no es deseable para comprender la bondad de ajuste entre diferentes características. Además, las métricas de distancia no son fácilmente comparables entre pares de variables con un número diferente de categorías. Permítanme ilustrar esto con un ejemplo — digamos que tenemos 3 columnas — género con dos categorías (Masculino representado por 0 y Femenino representado por 1), calificaciones con tres categorías (Excelente representado por 2, Bueno representado por 1 y Pobre representado por 0) y admisión a la universidad (Sí representado por 1 y No representado por 0). Queremos comparar si el género está más correlacionado con la admisión a la universidad o si las calificaciones están más correlacionadas con la admisión a la universidad. Desde entonces, los valores de las calificaciones varían desde, mientras que el género varía desde la distancia entre la admisión a la universidad (rango — ) y las calificaciones se inflarán artificialmente en comparación con la distancia entre la admisión a la universidad y el género. Sin embargo, este problema se puede eliminar fácilmente si codifica en caliente todas las variables de su matriz antes de calcular las correlaciones de manera que cada variable categórica solo tenga dos valores: Sí (1) o No (0).
Otro inconveniente potencialmente mayor del uso de métricas de distancia es que a veces no hay una conversión directa de una métrica de distancia en un coeficiente de bondad de ajuste, que es lo que queremos que nos interese más a los efectos de esta publicación de blog. Debo señalar aquí que si escala y centra sus datos continuos, la distancia euclidiana todavía podría usarse, ya que en estos casos hay una conversión fácil de la distancia Euclidiana a la correlación de Pearson. Por supuesto, la otra solución que se podría intentar sería utilizar diferentes criterios de corte para correlaciones entre dos variables discretas en comparación con dos variables continuas. Pero, según mí, eso no es ideal, ya que queremos una escala universal para comparar correlaciones entre todos los pares de variables.
Aunque las técnicas estadísticas basadas en el análisis de tablas de contingencia presentan menos inconvenientes en comparación con las métricas de distancia, existen problemas importantes que surgen principalmente de cómo la prueba de significancia estadística (por ejemplo: estadística de chi-cuadrado) se convierte en una medida de asociación. Algunos de los coeficientes, como Phi, se definen solo para tablas 2×2. Además, el coeficiente de contingencia C tiene la desventaja de que no alcanza un valor máximo de 1. El valor más alto de C para una tabla de 2×2 es 0,707 y para una tabla de 4×4 es 0,870. Esto significa que C no se puede usar para comparar asociaciones entre tablas con diferentes números de categorías o en tablas con una mezcla de variables categóricas y continuas. Además, otras medidas como la V de Cramer pueden ser un estimador muy sesgado, especialmente en comparación con las correlaciones entre variables continuas y tenderán a sobreestimar la fuerza de la asociación. Una forma de mitigar el sesgo en la V de Cramer es usar una especie de corrección de sesgo sugerida aquí. La V de Cramer corregida al sesgo mostró tener típicamente un error cuadrado medio mucho más pequeño.