データ分析において変数間の関係性を評価する際、最も広く利用される指標は「相関係数(Correlation Coefficient)」です。しかし、相関係数の根底には「共分散(Covariance)」という極めて重要な統計的基礎概念が存在します。
相関係数を正しく解釈し、高度な多変量解析(主成分分析や重回帰分析など)の数理的メカニズムを深く理解するためには、共分散の構造を把握することが不可欠です。本記事では、共分散の数理的な定義から幾何学的な解釈、相関係数への変換プロセス、および実務における両指標の使い分けについて詳細に解説します。
1. 共分散の数理的定義と幾何学的解釈
共分散は、2つの変数 $X$ と $Y$ が「それぞれの平均値からどの程度連動してばらついているか(共変しているか)」を測定する指標です。
1.1. 共分散の計算式
サンプルサイズ $n$ のデータセットにおいて、変数 $X$ の各観測値を $x_i$、変数 $Y$ の各観測値を $y_i$ とし、それぞれの標本平均を $\bar{x}, \bar{y}$ とします。このとき、標本共分散 $S_{xy}$ は以下の式で定義されます。
$$S_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$$
この式の核となるのは、$(x_i – \bar{x})$ および $(y_i – \bar{y})$ という「平均からの偏差(Deviation)」です。共分散は、各データポイントにおける「$X$ の偏差と $Y$ の偏差の積」を計算し、その平均をとったもの(不偏推定量とするため分母は $n-1$ を使用)として解釈されます。
1.2. 散布図による幾何学的解釈と4象限
共分散のメカニズムを直感的に理解するためには、散布図を各変数の平均値の線(垂直線 $x = \bar{x}$ と水平線 $y = \bar{y}$)で4つの象限に分割するアプローチが極めて有効です。
(図1. 共分散の4象限分割と面積(偏差の積)の幾何学的イメージ)
平均値の線によって分割された各象限において、偏差の積 $(x_i – \bar{x})(y_i – \bar{y})$ がどのような値をとるかを考察します。
- 第1象限(右上)
$x_i > \bar{x}$ かつ $y_i > \bar{y}$ となる領域です。両方の偏差が正であるため、偏差の積は「プラス」になります。 - 第2象限(左上)
$x_i < \bar{x}$ かつ $y_i > \bar{y}$ となる領域です。$X$ の偏差が負、$Y$ の偏差が正であるため、偏差の積は「マイナス」になります。 - 第3象限(左下)
$x_i < \bar{x}$ かつ $y_i < \bar{y}$ となる領域です。両方の偏差が負であるため、マイナス同士の掛け算により偏差の積は「プラス」になります。 - 第4象限(右下)
$x_i > \bar{x}$ かつ $y_i < \bar{y}$ となる領域です。$X$ の偏差が正、$Y$ の偏差が負であるため、偏差の積は「マイナス」になります。
データポイントが第1象限と第3象限に多く分布している場合、正の偏差の積が合計値を押し上げるため、共分散は「大きな正の値」をとります(正の相関)。逆に、第2象限と第4象限に多く分布している場合は、負の偏差の積が支配的となり、共分散は「大きな負の値」をとります(負の相関)。全象限に均等に散らばっている場合、プラスとマイナスが相殺されて共分散は「ゼロに近づき」ます(無相関)。
各データポイントが形成する長方形の面積(偏差の積)の符号付き合計値が、共分散の幾何学的な実態です。
2. 共分散と相関係数の決定的な違い
共分散は変数の連動性を評価する優れた指標ですが、致命的な欠点を抱えています。それは「変数の測定単位(スケール)に依存する」という点です。
| 比較項目 | 共分散 (Covariance) | 相関係数 (Correlation Coefficient) |
|---|---|---|
| 指標の性質 | 2変数の偏差の積の平均(連動性の絶対量) | 共分散を標準化したもの(連動性の相対的な強さ) |
| 単位(次元) | $X$ の単位 $\times$ $Y$ の単位(例:cm $\cdot$ kg) | 無次元(単位なし) |
| 取り得る値の範囲 | $-\infty$ から $+\infty$ | $-1.0$ から $+1.0$ |
| スケールの影響 | データの測定単位を変えると値が劇的に変化する | 測定単位を変えても値は一切変化しない |
| 異なるデータ間の比較 | 不可能(スケールが違うため比較に意味がない) | 可能(客観的な強さの基準として比較できる) |
2.1. スケール依存性の問題
ある集団の「身長」と「体重」の共分散を計算するケースを想定します。身長をメートル(m)、体重をキログラム(kg)で計測して計算した共分散と、センチメートル(cm)とグラム(g)で計測して計算した共分散とでは、後者の方が桁違いに大きな数値になります。連動性の本質(データの実態)は何も変わっていないにもかかわらず、単位を変換しただけで値が変動してしまうため、「共分散の値が100だから連動性が強い」といった絶対的な評価を下すことができません。
数式で表すと、定数 $a, b$ を用いて変数を定数倍した場合、共分散は以下の性質を持ちます。
$$Cov(aX, bY) = ab \cdot Cov(X, Y)$$
2.2. 相関係数への標準化プロセス
このスケール依存性の問題を解決し、異なるデータセット間でも関係性の強さを客観的に比較できるようにしたものが「ピアソンの積率相関係数 $r$」です。相関係数は、共分散を「変数 $X$ の標準偏差 $S_x$」と「変数 $Y$ の標準偏差 $S_y$」の積で割ることによって標準化されます。
$$r = \frac{S_{xy}}{S_x S_y}$$
標準偏差も元の変数と同じ測定単位(スケール)を持つため、分子の共分散の単位(例:cm $\cdot$ kg)が、分母の標準偏差の積の単位(例:cm $\cdot$ kg)で割り算されることになり、単位が完全に相殺されます。結果として相関係数は「無次元の指標」となり、コーシー・シュワルツの不等式によって数学的に必ず $-1$ から $1$ の間に収まることが保証されます。これにより、「$r = 0.8$ だから強い正の相関がある」といった普遍的な解釈が可能になります。
(図2. 測定単位の変更による共分散の変動と相関係数の不変性)
3. 【実務事例】共分散と相関係数の使い分け
実務の現場においては、探索的データ分析で直感的な解釈が求められる場面と、数理的な最適化モデルを構築する場面とで、相関係数と共分散が明確に使い分けられます。
3.1. 金融工学・ポートフォリオ最適化(共分散の活用)
背景
金融機関のクオンツ部門において、複数の株式銘柄を組み合わせた投資信託(ポートフォリオ)を組成し、リスク(価格変動の分散)を最小化するプロジェクトが進行しています。
分析アプローチと解釈
ハリー・マーコウィッツが提唱した「現代ポートフォリオ理論(Modern Portfolio Theory)」において、ポートフォリオ全体のリスク(分散)を計算するためには、単なる相関係数ではなく「共分散行列(分散共分散行列)」が必須となります。複数資産の合成リスク $\sigma_p^2$ は、各資産の投資ウェイト $w_i, w_j$ と、資産間の共分散 $Cov(R_i, R_j)$ を用いて以下の二次形式で計算されます。
$$\sigma_p^2 = \sum_{i=1}^{n} \sum_{j=1}^{n} w_i w_j Cov(R_i, R_j)$$
相関係数だけでは各銘柄の「変動の絶対的な大きさ(ボラティリティ)」の情報が欠落しているため、リスクの総量を金額ベースやパーセンテージベースで正確に算出することができません。資産運用モデルの構築やリスクバリュー(VaR)の算出においては、スケール情報を保持した共分散が主役として機能します。
(図3. 資産リターンのばらつきと共分散(等高線プロット))
3.2. 小売業における商品カテゴリの購買傾向分析(相関係数の活用)
背景
大手スーパーマーケットのマーケティング部門が、顧客の購買履歴データを用いて「どの商品カテゴリが一緒に買われやすいか(併売傾向)」を分析し、店舗の棚割り(商品配置)を最適化しようとしています。
分析アプローチと解釈
顧客ごとの「飲料の購入金額」と「日用品の購入金額」の連動性を評価します。ここで共分散を使用すると、単価が高い商品群(例:高級ワインと高額家電)の共分散が極端に大きくなり、単価が低い商品群(例:スナック菓子と缶コーヒー)の共分散が小さく算出されてしまいます。これでは、純粋な「一緒に買われやすいという行動の連動性」を評価できません。
そこで、各カテゴリの購入金額の標準偏差で割った「相関係数」を算出します。相関係数を用いることで、単価(スケール)の影響が完全に排除され、「単価は低いが必ず一緒に買われる組み合わせ」を高い相関として正確に抽出することが可能になりました。この結果に基づき、相関の高い商品を隣接させるクロスマーチャンダイジング戦略を実行し、客単価の向上を実現しました。
(図4. 低単価商品における購買連動性(相関の強さ))
まとめ
「共分散」は、平均値からの偏差の積を用いて2変数間の連動性を定量化する、統計学における極めて基礎的な概念です。散布図を4象限に分割して面積の正負を捉える幾何学的なイメージを持つことで、データがどのように共変しているかを直感的に理解することができます。
共分散は測定単位(スケール)に依存するという扱いづらさを持つため、直感的な関係性の評価には、標準化された無次元の指標である「相関係数」が広く用いられます。しかし、主成分分析(PCA)における固有値問題の解法や、金融工学におけるリスク管理など、変数が持つ本来の分散(ばらつきの絶対量)を維持したまま多変量の構造をモデル化する領域においては、共分散および共分散行列が不可欠な役割を担います。両者の数理的な繋がりと特性の違いを正確に把握することが、データサイエンスにおける高度な分析手法を習得するための重要な礎となります。

