2026年 4月 12日 日曜日

Top 5 This Week

Related Posts

1.3 相関分析でよくある誤解10選

- 本サイト運営者のサービスの紹介 -


相関分析は、データ間の関係性を定量化する上で非常に強力かつ基本的な手法です。しかし、その手軽さゆえに、算出された相関係数(特にピアソンの積率相関係数)の解釈を誤り、誤った意思決定や結論を導いてしまうケースがデータ分析の現場で頻発しています。

本記事では、相関分析において初心者が陥りやすい「10の誤解」を整理し、それぞれの数理的な背景や統計学的な限界、およびそれらを回避するための正しいアプローチについて解説します。

1. 相関分析における10の誤解の全体像

まずは、本記事で取り上げる10の誤解と、それに対する正しい統計学的解釈を以下の表に示します。

No. よくある誤解 正しい統計学的解釈
1 相関関係があれば因果関係がある 相関は連動性を示すのみであり、原因と結果を証明するものではありません。
2 相関係数が0なら、無関係である 線形関係がないだけで、非線形な関係(U字型など)が存在する可能性があります。
3 相関係数が同じなら、データの分布も似ている 「アンスコムの例」が示すように、全く異なる分布でも同じ係数になります。
4 相関係数は外れ値の影響を受けにくい ピアソンの相関係数は外れ値に対して極めて脆弱(非頑健)です。
5 p値が小さければ、強い相関がある 大標本では微小な相関でも有意になります。効果量(相関係数の大きさ)の評価が必要です。
6 全体で相関があれば、部分集団でも同じ相関になる 「シンプソンのパラドックス」により、層別に見ると相関が逆転することがあります。
7 変数の単位(スケール)を変えると相関も変わる 相関係数は標準化されているため、定数倍や定数加算に対して不変です。
8 第3の変数の存在を無視しても問題ない 交絡変数による「疑似相関」が生じるため、偏相関による統制が必要です。
9 時系列データにも通常の相関分析が適用できる トレンドを持つデータ同士では「見せかけの回帰(相関)」が発生します。
10 比率データ同士の相関はそのまま信用できる 共通の分母を持つ比率同士の相関は、構造的に疑似相関を生み出しやすくなります。

2. 各誤解の数理的背景と詳細解説

誤解1:相関関係があれば因果関係がある

前項で解説した通り、相関関係は「変数 $X$ と $Y$ が一緒に動く傾向」を示しているに過ぎず、「$X$ が変化したから $Y$ が変化した」という方向性や因果メカニズムを保証するものではありません。実務においてこれを混同すると、効果のない施策に莫大な予算を投じるリスクが生じます。

誤解2:相関係数が0なら、2つの変数には全く関係がない

ピアソンの積率相関係数 $r$ は、「直線的な関係(線形関係)」の強さのみを測定します。したがって、$r \approx 0$ であっても、変数が独立(無関係)であるとは限りません。

例えば、$X$ が標準正規分布に従い、$Y = X^2$ という完全な二次関数的関係があるとします。このとき、$X$ と $Y$ の共分散は $Cov(X, X^2) = E[X^3] – E[X]E[X^2] = 0 – 0 = 0$ となります。数式上は完全な依存関係があるにもかかわらず、相関係数は $0$ と算出されます。必ず散布図を描画し、非線形な構造が隠れていないかを確認する必要があります。

非線形な関係と相関係数の限界

(図1. 非線形な関係と相関係数の限界)

誤解3:相関係数が同じなら、データの分布も似ている(アンスコムの例)

要約統計量(平均、分散、相関係数など)が全く同じであっても、データの分布形状が根本的に異なるケースが存在します。これを視覚的に証明した有名な例が「アンスコムの例(Anscombe’s quartet)」です。

アンスコムの例では、4つの異なるデータセットが用意されています。これらはすべて、$X$ の平均が $9.0$、$Y$ の平均が $7.5$、$X$ と $Y$ の相関係数が $r \approx 0.816$、回帰直線が $y = 3.0 + 0.5x$ と完全に一致します。しかし、散布図を描くと以下のようになります。

  • データセット1:正規分布に近い一般的な線形関係
  • データセット2:完全な非線形(二次曲線)関係
  • データセット3:完全な直線関係だが、1つの極端な外れ値によって傾きがずれている
  • データセット4:$X$ が一定値で相関が計算できないはずが、1つの外れ値によって高い相関が生まれている

この事実は、数値指標のみを鵜呑みにせず、常にデータの可視化を併用することの重要性を警告しています。

アンスコムの例(Anscombe's Quartet)

(図2. アンスコムの例(Anscombe’s Quartet))

誤解4:相関係数は外れ値の影響を受けにくい

ピアソンの相関係数は、平均からの偏差の積和や平方和を用いて計算されるため、極端な値(外れ値)に対して非常に非頑健(ノンロバスト)です。1つの異常なデータポイントが存在するだけで、無相関のデータに強い相関を持たせたり、逆に強い相関をかき消したりすることが可能です。このような場合、順位に基づくスピアマンの順位相関係数など、ノンパラメトリックな代替指標の利用を検討すべきです。

誤解5:p値が小さければ、強い相関がある

相関分析における仮説検定(無相関の検定)において、「p値が極めて小さい(例:$p < 0.001$)」ことは、「母集団における相関係数が $0$ ではない」という帰無仮説の棄却を意味するだけであり、「相関が強い」ことを意味しません。サンプルサイズ $n$ が巨大になれば、実用上は無意味なほど微小な相関係数(例:$r = 0.05$)であっても統計的に有意となってしまいます。p値と効果量(相関係数の絶対値)は区別して評価する必要があります。

誤解6:全体で相関があれば、部分集団でも同じ相関になる(シンプソンのパラドックス)

データ全体で計算した相関の方向が、データを特定のグループ(層)ごとに分割して計算した相関の方向と逆転する現象を「シンプソンのパラドックス(Simpson’s Paradox)」と呼びます。これは、グループを分割する変数(交絡変数)が、$X$ と $Y$ の両方に影響を与えているために発生します。分析対象の背後にある層別構造を見落とすと、全く逆の意思決定を下す危険性があります。

誤解7:変数の単位(スケール)を変えると相関も変わる

ピアソンの積率相関係数は、変数を定数倍したり定数を加えたりする線形変換に対して不変です。変数 $X$ を $X’ = aX + b$、変数 $Y$ を $Y’ = cY + d$($a, c > 0$)と変換した場合、共分散と標準偏差の性質から以下のように導出されます。

$$
r_{X’Y’} = \frac{Cov(aX+b, cY+d)}{\sqrt{V(aX+b)}\sqrt{V(cY+d)}} = \frac{ac Cov(X,Y)}{\sqrt{a^2 V(X)}\sqrt{c^2 V(Y)}} = \frac{Cov(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}} = r_{XY}
$$

これにより、データを「メートル」から「センチメートル」に変換しても、相関係数は一切変化しません。

誤解8:第3の変数の存在を無視しても問題ない

2変数間の見かけの相関は、共通の原因である「交絡変数」によって生じる疑似相関の可能性があります。真の関係性を評価するためには、偏相関係数 $r_{xy \cdot z}$ を計算し、第3の変数 $Z$ の影響を数理的に統制(コントロール)しなければなりません。

誤解9:時系列データにも通常の相関分析が適用できる

時間とともに増加または減少するトレンドを持つ非定常時系列データ(GDPや株価など)同士で相関係数を計算すると、両者に全く関連性がなくても強い相関が算出されます。これを「見せかけの回帰(Spurious Regression)」と呼びます。時系列データを分析する場合は、差分をとって定常化するなどの前処理が必須です。

誤解10:比率データ同士の相関はそのまま信用できる

共通の分母を持つ比率データ(例:$X/Z$ と $Y/Z$)同士の相関を計算すると、元の変数 $X$ と $Y$ に相関がなくても、分母 $Z$ の変動によって数学的に疑似相関が生じます。これはピアソンによって古くから指摘されている問題であり、指標の作成方法に起因するアーティファクト(人工的な産物)に注意する必要があります。

3. 【実務事例】誤解が招くビジネス上のリスクと対処法

3.1. 金融リスク管理におけるシンプソンのパラドックス

背景
ある金融機関において、顧客の「年収」と「ローンのデフォルト(債務不履行)確率」の相関を分析しました。データ全体で相関をとると、$r = 0.45$ という正の相関が確認され、「年収が高い人ほどデフォルトしやすい」という直感に反する結果が得られました。

分析と問題点
これは誤解6(シンプソンのパラドックス)の典型例です。データを「借入目的(住宅ローン、事業資金、消費者金融など)」というグループで層別化して再分析したところ、すべての層において年収とデフォルト確率には「負の相関(年収が高いほどデフォルトしにくい)」が存在していました。全体で正の相関が出た理由は、「年収が高い人ほど、リスクの高い高額な事業資金ローンを組む割合が多かった」という交絡要因が働いていたためです。

解釈とアクション
全体の相関だけを見て「高年収層の審査を一律に厳格化する」という誤った意思決定を回避し、借入目的ごとの適切なリスクプライシング・モデルを構築しました。

シンプソンのパラドックス

(図3. シンプソンのパラドックス)

3.2. 製造業の品質管理におけるアンスコムの例の教訓

背景
ある精密機械の工場で、部品の「加工時間」と「表面の粗さ(不良指標)」の相関係数を複数の製造ラインごとに自動計算するシステムを導入しました。ラインAとラインBはともに $r = 0.82$ と算出されたため、品質管理部門は「両ラインとも同じメカニズムで不良が発生している」と判断しました。

分析と問題点
これは誤解3および誤解4の罠です。担当者が散布図を描画して確認したところ、ラインAは加工時間とともに粗さが徐々に悪化する線形関係(正常な摩耗)でしたが、ラインBは常に一定の高品質を保っていたものの、たった1回の機械トラブル(極端な外れ値)によって相関係数が人為的に押し上げられているだけでした。

解釈とアクション
相関係数の自動計算システムのアラート条件を見直し、相関係数の閾値だけでなく、外れ値を検知するロジック(スピアマンの順位相関係数の併用やマハラノビス距離の計算)を組み込むことで、現場の実態に即した異常検知が可能になりました。

外れ値が相関係数に与える影響

(図4. 外れ値が相関係数に与える影響)

まとめ

相関分析は、数式やツールを使えば誰でも一瞬で結果を導き出せる手法ですが、その解釈には細心の注意が必要です。「相関=因果ではない」「外れ値に弱い」「層別構造の無視は危険」といった統計的な限界や罠を深く理解しておくことは、データサイエンティストやアナリストにとって必須の素養と言えます。

誤った解釈によるビジネス上の致命的なミスを防ぐためには、要約統計量に依存せず、常に散布図などの可視化手法を併用すること、そしてデータの背後にある業務プロセスや生成メカニズムに対して批判的な洞察を加えることが極めて重要です。

Popular Articles