二つの離散変数またはカテゴリ変数の間の相関
大まかに言えば、カテゴリ変数間の関連付けを見つけるには二つの異なる方法があります。 アプローチの一つのセットは、ユークリッド距離やマンハッタン距離などの距離メトリックに依存していますが、別のアプローチのセットは、カイ二乗検定やグッドマン-クラスカルのラムダなどの様々な統計メトリックにまたがっています。 今、そこにいる数学的純粋主義者は、相関が定義によってどの距離になることができないかを単位独立である必要があるので、距離指標は相関メトリ 私はその議論に同意し、後でそれを指摘しますが、多くの人々がカテゴリ変数間の相関のプロキシとして距離を使用するので、今のところ私はそれを含 さらに、特定の特殊な状況では、ピアソン相関とユークリッド距離の間の簡単な変換があります。
以下に、私は両方のアプローチ内のいくつかの一般的な指標をリストし、その後、二つの広範なアプローチのいくつかの相対的な強みと弱みを議論し その後、私は両方のアプローチの中でいくつかの一般的に使用される指標を一覧表示し、それらの相対的なメリットの簡単な議論で終わります。
距離メトリック
“距離”の概念は、多くの場合、”相関”と同義ではありませんが、距離メトリックは、それにもかかわらず、相関の他の尺度に概念的に類似しているベクトル間の類似性を計算するために使用することができます。 他にも多くの距離指標がありますが、ここでの私の意図は、二つの点間の距離を計算できるすべての異なる方法を紹介することではなく、類似性や相関を測定するためのアプローチとしての距離指標の一般的な概念を紹介することです。 私はこの目的のために以下の10の一般的に使用される距離測定基準を指摘しました。 これらの指標について詳しく知りたい場合は、ここで定義と数式を見つけることができます。P>
- 絶対距離の和
- 二乗距離の和
- 平均絶対誤差
- ユークリッド距離
- マンハッタン距離
- チェスボード距離
- ミンコフスキー距離
- キャンベラ距離
- コサイン距離
- ハミング距離
分割表分析
二つのカテゴリ変数を比較するとき、カテゴリの頻度を数えることによって、我々は簡単に分割表に元のベクトルを変換することができます。 たとえば、人間であることと科学助成金を得ることとの間に相関があるかどうかを確認したいとします(残念ながら、相関がありますが、それは別の日 この場合、データには2つの列があります—1つは男性または女性(この場合はバイナリの世界を想定)、もう1つは付与(はいまたはいいえ)です。 これらの列からデータを取得し、ペア単位の頻度を計算することによってクロス集計として表すことができます
分割表またはクロス集計は、変数の多変量頻度分布を表示し、分野間の科学研究で頻繁に使用されています。 統計分析での歴史的な使用のために、変数の2つのカテゴリ間の差の有意性を別のカテゴリ変数と比較するための一連の検定が開発されました。 二分変数(すなわち、二つのカテゴリのみを持つ変数)のための一般的なアプローチは、カイ二乗分布に基づいて構築されています。 私たちは統計的有意性をテストすることには興味がありませんが、効果の大きさ、特に2つの変数間の関連性の強さにもっと興味があります。 ありがたいことに、カイ二乗統計量を使用するいくつかの係数を含む、この目的のためにいくつかの係数が定義されています。 ここにいくつかの例があります:
- グッドマン-クラスカルのラムダ
- Phi co-efficient(カイ二乗統計を使用)
- クラマーのV(カイ二乗統計を使用)
- TschuprowのT(カイ二乗統計を使用)
- 不測の係数C(カイ二乗統計を使用)
相対的な強さと弱さ
距離メトリクスは、少なくとも私にとっては、より直感的ですそして理解すること容易。 ある変数が別の変数を完全に予測している場合、高次元空間にプロットすると、2つの変数が互いに重なったり、非常に近くなったりすることは理にか 私は、データを分析するために使用する方法は、可能な限り非統計学者に簡単に説明できると信じているので、距離を使用することは明らかな魅力を持 しかし、距離指標に依存するアプローチの大きな欠点は、スケールに依存していることです。 入力を10倍にスケールすると、距離メトリックはそれに敏感になり、大幅に変化します。 この動作は、異なるフィーチャ間の適合度を理解するのには望ましくありません。 さらに、距離指標は、カテゴリの数が異なる変数ペア間で容易に比較することはできません。 私は例でこれを説明してみましょう—のは、我々は3つの列を持っているとしましょう—二つのカテゴリ(0で表される男性と1で表される女性)、3つのカテゴ 私たちは、性別が大学入学とより相関しているのか、成績が大学入学とより相関しているのかを比較したいと考えています。 なぜなら、成績の値はからの範囲であり、性別は大学入学と性別の間の距離(range—)からの範囲であり、成績は大学入学と性別の間の距離に比べて人為的に膨張されるからである。 この問題は、すべてのカテゴリ変数がYes(1)またはNo(0)の2つの値のみを持つように相関を計算する前に、行列内のすべての変数をワンホットエンコー
距離メトリックを使用することのもう一つの潜在的に大きな欠点は、距離メトリックを適合度係数に簡単に変換できないことがあります。 ここでは、連続データを拡大縮小して中央に配置すると、ユークリッド距離をピアソン相関に簡単に変換できるため、ユークリッド距離を使用できます。 もちろん、試すことができる他の解決策は、2つの連続変数と比較して2つの離散変数間の相関に異なるカットオフ基準を使用することです。 しかし、私によると、すべての変数ペア間の相関を普遍的なスケールで比較したいので、それは理想的ではありません。
分割表の分析に基づく統計的手法は、距離指標と比較して欠点が少なくなりますが、統計的有意性検定の方法(例えば、統計的有意性検定)から主に生: カイ二乗統計量)は、関連の尺度に変換されます。 Phiなどの係数の一部は、2×2テーブルに対してのみ定義されます。 また、不測の事態係数Cは、最大値1に達しないという欠点を有している。 2×2テーブルのCの最高値は0.707で、4×4テーブルのCの最高値は0.870です。 つまり、cを使用して、カテゴリの数が異なるテーブル間、またはカテゴリ変数と連続変数が混在するテーブル間の関連付けを比較することはできません。 さらに、CramerのVのような他の尺度は、特に連続変数間の相関と比較して、大きく偏った推定量になる可能性があり、関連の強さを過大評価する傾向があ CramerのVのバイアスを軽減する1つの方法は、ここで提案されている一種のバイアス補正を使用することです。 バイアス補正されたCramerのVは、通常、平均二乗誤差がはるかに小さいことが示されています。