前項までにおいて、第3の変数(交絡変数)によって引き起こされる疑似相関の危険性と、そのメカニズムについて議論しました。観測データのみから変数間の純粋な関係性を抽出するためには、この交絡変数の影響を数学的に取り除く操作が求められます。この目的で用いられる統計指標が「偏相関係数(Partial Correlation Coefficient)」です。
本セクションでは、偏相関係数の数理的構造と、線形回帰モデルの残差を用いた幾何学的な解釈、および実務における具体的な適用事例について詳述します。偏相関係数を正しく活用することで、見せかけの相関に惑わされることなく、事象の真の構造に迫ることが可能になります。
偏相関係数の数理的定義
変数 $X$ と変数 $Y$ の関係性を評価する際、両方に影響を与える交絡変数 $Z$ が存在すると仮定します。このとき、$Z$ の影響を統制(コントロール)した上での $X$ と $Y$ の偏相関係数 $r_{xy \cdot z}$ は、各変数間の単相関係数(ピアソンの積率相関係数)を用いて次のように定義されます。
$$
r_{xy \cdot z} = \frac{r_{xy} – r_{xz} r_{yz}}{\sqrt{1 – r_{xz}^2} \sqrt{1 – r_{yz}^2}}
$$
ここで、$r_{xy}$ は $X$ と $Y$ の単相関係数、$r_{xz}$ は $X$ と $Z$ の単相関係数、$r_{yz}$ は $Y$ と $Z$ の単相関係数を示します。この公式は、3つの変数の単相関係数さえ計算されていれば、交絡変数の影響を取り除いた相関係数を直接算出できるという強力な性質を持っています。さらに交絡変数が複数存在する場合には、行列演算を用いた逆行列の対角成分からより高次の偏相関係数を計算することが可能です。
回帰分析の残差による幾何学的解釈
偏相関係数の本質的な意味を理解するためには、線形回帰モデルの「残差(Residuals)」の概念を経由することが最も適切です。変数 $Z$ の影響を取り除くという操作は、統計学的および幾何学的に以下の手順と完全に等価です。
- 変数 $X$ を目的変数、変数 $Z$ を説明変数として単回帰分析を行い、その残差 $e_X$ を求めます。この残差 $e_X$ は、「$Z$ の変動では説明しきれなかった $X$ の固有の変動部分」を意味します。
- 同様に、変数 $Y$ を目的変数、変数 $Z$ を説明変数として単回帰分析を行い、残差 $e_Y$ を求めます。この残差 $e_Y$ は、「$Z$ の変動では説明しきれなかった $Y$ の固有の変動部分」です。
- この2つの残差 $e_X$ と $e_Y$ の間にピアソンの積率相関係数を適用すると、その値がそのまま偏相関係数 $r_{xy \cdot z}$ と一致します。
$$
r_{xy \cdot z} = \frac{\sum_{i=1}^{n} (e_{Xi} – \bar{e}_X)(e_{Yi} – \bar{e}_Y)}{\sqrt{\sum_{i=1}^{n} (e_{Xi} – \bar{e}_X)^2} \sqrt{\sum_{i=1}^{n} (e_{Yi} – \bar{e}_Y)^2}}
$$
これにより、偏相関係数は「交絡変数の影響を回帰直線によって控除した後に残る、純粋な変動成分同士の相関」であることが証明されます。散布図上で表現する場合、元の $X$ と $Y$ の散布図ではなく、$e_X$ と $e_Y$ の散布図を描画することで、真の関係性を視覚的に確認することができます。
(図1. 偏相関係数の幾何学的解釈(残差同士の散布図))
偏相関係数の無相関の検定
算出された偏相関係数が母集団において本当にゼロではない(有意な相関がある)かどうかを判定するためには、無相関の検定を実施します。検定の手順は単相関係数の場合と類似していますが、交絡変数を統制するために「自由度」が消費される点に厳重な注意が必要です。
サンプルサイズを $n$、統制する交絡変数の数を $k$ としたとき、帰無仮説「母偏相関係数はゼロである」の下で、以下の検定統計量 $t$ は自由度 $n – k – 2$ のt分布に従います。
$$
t = \frac{r_{xy \cdot z} \sqrt{n – k – 2}}{\sqrt{1 – r_{xy \cdot z}^2}}
$$
この検定統計量を用いてp値を算出し、あらかじめ設定した有意水準(例えば $\alpha = 0.05$)と比較することで、統計的な有意性を評価します。統制する変数の数 $k$ が増えるほど自由度が小さくなり、有意差を検出するためのハードルが高くなる(検定力が低下する)という数理的なトレードオフが存在します。
単相関係数と偏相関係数の比較
両者の違いを以下の表に整理します。
| 比較項目 | 単相関係数 | 偏相関係数 |
|---|---|---|
| 評価の対象 | 2変数間の見かけ上の直線的な連動性 | 第3の変数の影響を取り除いた後の、2変数間の純粋な直線的な連動性 |
| 疑似相関への耐性 | なし(交絡変数の影響をそのまま受ける) | あり(指定した交絡変数の影響を数学的に排除) |
| 検定における自由度 | $n – 2$ | $n – k – 2$ ($k$ は統制した変数の数) |
| 実務における適用場面 | 探索的データ分析の初期段階における全体傾向の把握 | 仮説の検証、因果関係を推論する前段階での要因の切り分け |
実務事例1:小売業における店舗面積と売上の評価
背景
多店舗展開する小売チェーンにおいて、各店舗の「床面積($X$)」と「月間売上($Y$)」の間に強い正の単相関が観測されました。この指標を根拠に、経営会議において「今後の新規出店はすべて大型店舗にすべきである」という投資計画が浮上しました。
分析と問題点
床面積が広いことが直接的に売上を牽引しているのか、それとも別の要因が背後に存在しているのかを検証する必要があります。データ分析担当者は、店舗が立地する地域の「人口密度($Z$)」を交絡変数として疑いました。一般的に、人口が密集している都市部では高い需要を見込んで最初から大型店舗を構える傾向があり、同時に集客数の母数が大きいため売上も高くなります。
解決策
人口密度の影響を統制した偏相関係数を算出した結果、床面積と売上の相関係数はゼロに近い値まで低下しました。これにより、床面積そのものが直接的に売上を生み出しているわけではないことが統計的に示されました。この結果を受け、企業は無闇な大型化による設備投資の増大リスクを回避し、立地特性(人口密度や商圏ポテンシャル)の評価を優先する出店戦略へと方針を修正しました。
(図2. 店舗面積と売上の関係における人口密度の影響)
実務事例2:製造業における機械の稼働速度と不良品率の関係
背景
ある工場の生産ラインにおいて、加工機械の「稼働速度($X$)」と製品の「不良品率($Y$)」のデータを収集したところ、明確な正の相関が確認されました。現場の管理者は、機械を早く動かすことで加工精度が落ちていると推測し、稼働速度を標準より落とす措置を検討しました。
分析と問題点
生産現場の環境記録と照らし合わせて時系列の変動を分析した結果、「工場内の室温($Z$)」が交絡変数となっている可能性が浮上しました。夏季など室温が高い日は機械の放熱効率が悪化して熱による不具合が生じやすく(不良品率の増加)、それと同時に、不良品の発生による生産遅れを取り戻すために現場の作業員が意図的に機械の設定速度を上げている(稼働速度の増加)という運用実態が存在していました。
解決策
室温のデータを統制変数として組み込み偏相関係数を計算すると、稼働速度と不良品率の間に有意な相関は全く見られなくなりました。つまり、稼働速度を低下させても不良品率は改善しないことが数理的に証明されたことになります。この客観的証拠に基づき、稼働速度の制限による生産性の低下を避け、工場内の空調設備の増強や機械の冷却システムの改善に設備投資を集中させるという合理的な意思決定が行われました。
(図3. 機械の稼働速度と不良品率における室温の影響)

