データ分析において、2つの変数の間に直接的な関係性が全く存在しないにもかかわらず、計算上は強い相関係数が算出されてしまう現象を「疑似相関(Spurious Correlation)」、または「見せかけの相関」と呼びます。前項で解説した交絡変数(第3の変数)の存在によるものに加えて、時系列データ特有の性質によって引き起こされる数学的な錯覚も、疑似相関の代表的な要因です。
本項では、無関係なデータに相関が生じてしまう数理的メカニズムと、その誤謬を回避するための理論的アプローチについて解説します。
時系列データにおけるトレンドと「ナンセンス相関」
疑似相関が最も頻繁に、かつ劇的に現れるのは時系列データを扱う場合です。時間経過とともに単調に増加(または減少)するトレンドを持つ2つの変数を比較すると、両者の間に因果関係や共通の要因が全くなくても、極めて高い相関係数が算出されます。
(図8. 時系列データにおける見せかけの連動)
この現象の数理的背景を理解するために、統計学における「ランダムウォーク(Random Walk)」と「非定常過程(Non-stationary Process)」の概念を導入します。2つの独立した変数 $X$ と $Y$ が、時間 $t$ において以下の自己回帰過程に従って生成されると仮定します。
$$
X_t = X_{t-1} + u_t
$$
$$
Y_t = Y_{t-1} + v_t
$$
ここで、$u_t$ と $v_t$ は互いに独立で、平均 $0$、分散 $\sigma^2$ の正規分布に従う白色雑音(ホワイトノイズ)です。定義上、$X_t$ と $Y_t$ の間にはいかなる関係性も存在しません。しかし、これらの系列は定常性(時間によらず平均や分散が一定である性質)を満たさず、時間が経過するにつれて分散が無限大に発散します。
このような非定常な時系列データ同士でピアソンの積率相関係数 $r$ を計算したり、回帰分析を行ったりすると、統計的に有意な強い相関関係が頻繁に観測されます。これは計量経済学において「見せかけの回帰(Spurious Regression)」として証明されている現象であり、時間という共通のインデックスに対する累積的な変動を、変数間の関係性と誤認してしまうことによって発生します。
疑似相関の分類と対処法
観測データから算出された相関係数が疑似相関である可能性を疑う場合、その発生メカニズムに応じて適切な統計的対処を行う必要があります。以下の表に、疑似相関の主な種類とその対処法を整理します。
| 疑似相関の要因 | 発生メカニズム | 数理的・統計的な対処法 |
|---|---|---|
| 交絡変数(第3の変数) | 観測されない変数 $Z$ が、変数 $X$ と変数 $Y$ の両方に影響を与えている。 | 偏相関係数の算出、層別化、重回帰分析による統制、傾向スコアマッチング。 |
| 時間的トレンド(非定常性) | 互いに独立な変数が、時間経過とともに同様の方向へ累積的に変化している。 | 階差数列の取得($\Delta X_t = X_t – X_{t-1}$)、トレンド除去、単位根検定の実施。 |
| サンプリングバイアス | 特定の条件を満たす標本のみを抽出した結果、母集団にはない相関が生じる(バークソンのパラドックスなど)。 | 無作為抽出(ランダムサンプリング)の徹底、標本抽出確率に基づく重み付け補正。 |
【実務事例】見せかけの相関がもたらす分析上の陥穽
理論的なメカニズムを踏まえ、実際のビジネス環境において疑似相関がどのように現れ、どのような誤った意思決定を誘発する危険性があるか、2つの事例を挙げて解説します。
事例1 マクロ環境指標と自社サービス売上の関係(マーケティング)
背景
あるオンライン教育プラットフォームを提供する企業において、過去10年間の「国内の高齢化率(65歳以上人口の割合)」と「自社の有料会員数」の推移を年次データで比較しました。相関分析の結果、$r = 0.92$ という極めて強い正の相関が確認されました。この結果を受け、事業部門は「シニア層の学習意欲向上が会員数増加を牽引している」と結論付け、シニア向けコンテンツへの大規模な投資を計画しました。
分析と問題点
この分析結果は、時系列データ特有のトレンドによる疑似相関(ナンセンス相関)の典型例です。過去10年間において、国内の高齢化率は一貫して単調増加しています。同時に、同社のサービスも事業の成長期にあり、時間経過とともに会員数が単調増加していました。両者は「時間とともに増加している」という点でのみ連動しており、実際の会員の年齢層内訳を確認すると、増加分の90%以上は20代〜30代の若年層であることが判明しました。
解決策
時間的トレンドによる見せかけの相関を排除するためには、原系列(そのままのデータ)ではなく、前年からの変化量である「階差(Difference)」をとって相関を再計算するアプローチが必須です。各年の増減分($\Delta X_t$ と $\Delta Y_t$)を用いて相関係数を算出したところ、相関はほぼゼロに消失しました。これにより、誤ったターゲット層への投資を未然に防ぐことができました。
(図9. トレンドの除去による疑似相関の解消)
事例2 生産設備における複数センサーの連動(製造業・予知保全)
背景
ある製造工場において、大型プレスマシンの予知保全を目的としたデータ分析プロジェクトが実施されました。マシンに取り付けられた「振動センサーの振幅値」と「工場内の環境湿度」の1年間の推移を比較したところ、両者に強い負の相関(湿度が下がるほど振動が大きくなる)が観測されました。技術部門は、乾燥状態が部品の摩耗を促進していると推測し、大規模な加湿設備の導入を検討しました。
分析と問題点
ここには、交絡変数による疑似相関が潜んでいました。データを詳細に確認すると、振動センサーの振幅値は時間の経過(マシンの累積稼働時間)とともに緩やかに増大していました。一方、データの観測を開始したのが夏場(高湿度)であり、観測の終盤が冬場(低湿度)であったため、環境湿度は時間経過とともに低下していました。つまり、「時間の経過(季節の進行とマシンの劣化)」という第3の変数が、両者のデータを逆方向に動かしていたに過ぎません。
解決策
マシンの累積稼働時間の影響を取り除くため、稼働時間を統制変数とした偏相関分析を実施しました。その結果、湿度と振動の間の相関関係は統計的有意性を失いました。マシンの振動増加は純粋な機械的劣化(摩耗)によるものであり、加湿設備の導入ではなく、劣化したベアリングの交換が正しいアプローチであることがデータから証明されました。
(図10. 第3の変数(時間)による交絡の視覚化)
データ分析において、算出された指標をそのまま鵜呑みにすることは極めて危険です。時系列データにおける非定常性や、観測されていない交絡変数の存在を常に疑い、階差の取得や偏相関係数の算出といった適切な数理的処理を施すことが、事象の真の構造を捉えるための不可欠なプロセスとなります。

