Top 5 This Week

Related Posts

2.8 ピアソン・スピアマン・ケンドール・クラメールの相関係数の強弱の目安

- 本サイト運営者のサービスの紹介 -


相関分析において算出される係数は、データの尺度(連続型、順序型、名義型)や関係性の構造(線形、単調、カテゴリ間の連関)に応じて適切なものを選択する必要があります。さらに重要な点は、算出された数値の絶対値が示す「関係性の強さ」の解釈が、用いる係数の種類や学問分野によって異なるということです。

本項では、代表的な4つの相関係数(ピアソン、スピアマン、ケンドール、クラメール)について、それぞれの数理的特性と、実務および学術研究における強弱の評価基準を詳細に解説します。

ピアソンの積率相関係数(Pearson’s $r$)

ピアソンの積率相関係数 $r$ は、2つの連続型変数間の「線形(直線的)な関係の強さ」を評価する最も一般的な指標です。値は $-1 \le r \le 1$ の範囲をとります。

一般的に、以下のような基準が目安として用いられます。

  • $0.7 \le |r| \le 1.0$: 強い相関
  • $0.4 \le |r| < 0.7$: 中程度の相関
  • $0.2 \le |r| < 0.4$: 弱い相関
  • $0.0 \le |r| < 0.2$: ほとんど相関なし

ただし、この基準は絶対的なものではありません。物理学や製造業の品質管理など、厳密な法則性が期待される分野では、$r = 0.8$ でも「ばらつきが大きい」と評価されることがあります。一方で、心理学や社会科学など、人間の行動や感情といったノイズの多いデータを扱う分野では、$r = 0.3$ であっても統計的に有意であれば「意味のある関係」として学術的に評価される傾向があります。

スピアマンの順位相関係数(Spearman’s $\rho$)

スピアマンの順位相関係数 $\rho$(ロー)は、連続型データを順位(ランク)データに変換してからピアソンの式を適用するノンパラメトリックな指標です。変数間の「単調な関係(一方が増えればもう一方も増えるが、直線である必要はない)」の強さを評価します。値は $-1 \le \rho \le 1$ の範囲をとります。

スピアマンの順位相関係数のメカニズム

(図1. スピアマンの順位相関係数のメカニズム)

評価の目安はピアソンの $r$ とほぼ同様の枠組みが適用されますが、データに非線形な関係(例えば指数関数的な増加)が含まれる場合、ピアソンの $r$ は低く算出されるのに対し、スピアマンの $\rho$ は順位の連動性を捉えるため高い値($1$ に近い値)を示します。外れ値が存在する場合も、順位変換によってその影響が緩和されるため、ピアソンよりも大きな絶対値となることが一般的です。

ケンドールの順位相関係数(Kendall’s $\tau$)

ケンドールの順位相関係数 $\tau$(タウ)もスピアマンと同様に順位データを扱いますが、計算の背後にある数理的アプローチが異なります。すべてのデータペアの組み合わせにおいて、大小関係の向きが一致する(順方向:Concordant)ペア数と、逆転する(逆方向:Discordant)ペア数の差の割合に基づき算出されます。値は $-1 \le \tau \le 1$ の範囲をとります。

ケンドールの「順方向ペア」と「逆方向ペア」

(図2. ケンドールの「順方向ペア」と「逆方向ペア」)

ケンドールの $\tau$ を評価する上で極めて重要な特徴は、同一のデータセットに対して計算した場合、スピアマンの $\rho$ よりも絶対値が小さく算出される数学的性質を持つという点です。おおよそ、スピアマンの $\rho$ の約3分の2から4分の3程度の値になります。

したがって、ケンドールの $\tau$ において $\tau = 0.5$ という値が得られた場合、それはピアソンやスピアマンにおける $0.5$(中程度の相関)よりも、実質的に「強い相関」を意味していると解釈する必要があります。サンプルサイズが小さい場合や、同順位(タイ)のデータが多く含まれる場合には、スピアマンよりもケンドールの $\tau$ の方が統計的推定量としての信頼性が高いとされています。

クラメールの連関係数(Cramér’s $V$)

クラメールの連関係数 $V$ は、これまでの3つとは異なり、名義尺度(カテゴリデータ)間の関係性の強さを評価するための指標です。分割表(クロス集計表)に基づくピアソンのカイ二乗統計量 $\chi^2$ から算出され、値は $0 \le V \le 1$ の範囲をとります(負の値は存在しません)。

$$
V = \sqrt{\frac{\chi^2}{n \cdot \min(R-1, C-1)}}
$$

ここで、$n$ はサンプルサイズ、$R$ は行数、$C$ は列数です。クラメールの $V$ の解釈基準は、分割表の「自由度(行列の最小次元マイナス1)」に大きく依存します。自由度を考慮したCohenの基準(Cohen’s guidelines)に則ると、評価の目安は以下のように変動します。

自由度 $\min(R-1, C-1)$ 弱い連関 中程度の連関 強い連関
$1$(例: 2×2, 2×3の表) $V \approx 0.10$ $V \approx 0.30$ $V \approx 0.50$ 以上
$2$(例: 3×3, 3×4の表) $V \approx 0.07$ $V \approx 0.21$ $V \approx 0.35$ 以上
$3$(例: 4×4, 4×5の表) $V \approx 0.06$ $V \approx 0.17$ $V \approx 0.29$ 以上

このように、カテゴリ数(表の次元)が大きくなるほど、小さな $V$ の値でも強い関連性を示す点に注意が必要です。単純に「$V=0.3$だから弱い」と断定することは統計学的に誤りとなります。

係数の比較要約表

各相関係数の特徴と目安を以下の表に整理します。

相関係数 対象となるデータ尺度 評価する関係性 値の範囲 解釈上の留意点
ピアソン ($r$) 連続型 × 連続型 線形(直線的)な関係 $-1 \sim 1$ 外れ値や非線形データに弱い。分野により強弱の基準が異なる。
スピアマン ($\rho$) 順序型 または 連続型 単調な関係 $-1 \sim 1$ 外れ値に頑健。非線形でも単調なら1に近づく。
ケンドール ($\tau$) 順序型 または 連続型 単調な関係 $-1 \sim 1$ スピアマンよりも値が小さく算出される。小標本で有用。
クラメール ($V$) 名義型 × 名義型 カテゴリ間の連関 $0 \sim 1$ 自由度(カテゴリ数)によって強弱の判定基準が変わる。

実務における適用事例

事例1 信頼性工学における機械部品の摩耗評価
ある工場において、ドリル刃の使用回数(回)と、刃先の摩耗量(μm)の関係を評価しました。散布図を確認すると、摩耗は初期段階で急激に進行し、その後緩やかになるという「非線形な単調増加」の傾向を示していました。このデータに対しピアソンの $r$ を計算すると $0.65$(中程度の相関)でしたが、スピアマンの $\rho$ を計算すると $0.92$(非常に強い相関)となりました。品質管理部門は、使用回数と摩耗量の間に強い順序的連動性があることをスピアマンの $\rho$ から定量的に立証し、一定回数でのドリル刃の定期交換ルールを制定しました。

ドリル刃の使用回数と摩耗量の関係

(図3. ドリル刃の使用回数と摩耗量の関係)

事例2 小売業における顧客セグメントと購買チャネルの連関
アパレル企業において、「顧客の居住地域(都市部、郊外、地方:3カテゴリ)」と「主な購買チャネル(実店舗、ECサイト、アプリ:3カテゴリ)」という2つの名義尺度データ間にどのような関係があるかを分析しました。3×3のクロス集計表からクラメールの $V$ を計算した結果、$V = 0.25$ でした。自由度が2であるため、Cohenの基準に照らし合わせると、これは「中程度から強い連関」に相当します。この結果を根拠として、居住地域ごとに最適化されたチャネル誘導のマーケティング施策が立案されました。

顧客の居住地域と購買チャネルの連関

(図4. 顧客の居住地域と購買チャネルの連関)

Popular Articles