データ分析において、ピアソンの積率相関係数は二つの連続変数間の直線的な関係性を評価するための最も基本的な指標です。前項で触れた通り、共分散はデータの測定単位(スケール)に依存するため、値が際限なく大きくなる、あるいは小さくなる性質を持ちます。このため、異なる単位を持つデータセット間で関係性の強さを直接比較することは不可能です。この問題を解決し、あらゆるデータの関係性を客観的な同一尺度で評価可能にしたものが相関係数です。
相関係数の最大の特徴は、計算結果が必ず $-1$ から $1$ の閉区間($-1 \leq r \leq 1$)に収まるという数学的な制約にあります。本記事では、この数値範囲がなぜ導かれるのかについて、「標準化(Zスコア)」の概念を基礎とした代数的な証明、およびベクトル空間における幾何学的な解釈の2つの視点から詳細に解説します。
1. 変数の標準化(Zスコア)と相関係数の再定義
相関係数が単位を持たない無次元の指標となり、かつ一定の範囲に収まる根本的な理由は、その計算過程に変数の「標準化(Standardization)」が内包されているためです。
標準化とは、個々のデータから平均を引き、標準偏差で割ることで、データの分布を「平均が $0$、標準偏差(および分散)が $1$」になるように変換する操作です。変数 $X$ と $Y$ の $i$ 番目のデータをそれぞれ $x_i, y_i$、標本平均を $\bar{x}, \bar{y}$、標本標準偏差を $S_x, S_y$ としたとき、標準化された値(Zスコア)$z_{xi}$ と $z_{yi}$ は以下のように定義されます。
$$
z_{xi} = \frac{x_i – \bar{x}}{S_x}, \quad z_{yi} = \frac{y_i – \bar{y}}{S_y}
$$
ピアソンの積率相関係数 $r$ は、元の式を変形すると、この標準化された変数同士の積の平均(自由度 $n-1$ で割ったもの)として完全に再定義することができます。
$$
r = \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{x_i – \bar{x}}{S_x} \right) \left( \frac{y_i – \bar{y}}{S_y} \right) = \frac{1}{n-1} \sum_{i=1}^{n} z_{xi} z_{yi}
$$
すなわち、相関係数とは「標準化された変数同士の共分散」に他なりません。単位が相殺されているため、$X$ が「円」で $Y$ が「グラム」であっても、Zスコアに変換された時点で純粋な数値のばらつきの連動性のみが抽出されます。
標準化されたデータを散布図にプロットすると、原点 $(0, 0)$ を中心として、主に $-3$ から $+3$ の範囲にデータが分布するようになります。この座標空間において、第1象限と第3象限にデータが集中すれば $r$ は正に近づき、第2象限と第4象限に集中すれば $r$ は負に近づきます。
(図1. 標準化されたデータ(Zスコア)の分布)
2. 代数的な証明とコーシー・シュワルツの不等式
相関係数 $r$ が $-1 \leq r \leq 1$ となることは、線形代数学における基礎的な定理である「コーシー・シュワルツの不等式(Cauchy-Schwarz inequality)」を用いることで厳密に証明されます。
任意の実数列 $a_i, b_i$ に対して、以下の不等式が成り立ちます。
$$
\left( \sum_{i=1}^{n} a_i b_i \right)^2 \leq \left( \sum_{i=1}^{n} a_i^2 \right) \left( \sum_{i=1}^{n} b_i^2 \right)
$$
ここで、$a_i$ に標準化された変数 $z_{xi}$ を、$b_i$ に $z_{yi}$ を代入します。標準化された変数の二乗和は、分散が $1$ であることの定義から以下の関係を満たします(不偏分散を用いる場合)。
$$
\frac{1}{n-1} \sum_{i=1}^{n} z_{xi}^2 = 1 \quad \implies \quad \sum_{i=1}^{n} z_{xi}^2 = n-1
$$
同様に、$\sum_{i=1}^{n} z_{yi}^2 = n-1$ となります。これらをコーシー・シュワルツの不等式に代入します。
$$
\left( \sum_{i=1}^{n} z_{xi} z_{yi} \right)^2 \leq (n-1)(n-1) = (n-1)^2
$$
両辺を $(n-1)^2$ で割ります。
$$
\left( \frac{1}{n-1} \sum_{i=1}^{n} z_{xi} z_{yi} \right)^2 \leq 1
$$
括弧の中身は相関係数 $r$ の定義そのものです。したがって、
$$
r^2 \leq 1 \quad \implies \quad -1 \leq r \leq 1
$$
以上により、相関係数が常に $-1$ から $1$ の間に収まることが代数的に証明されました。等号が成立する($r = 1$ または $r = -1$ となる)のは、$z_{yi} = c z_{xi}$($c$ は定数)というように、すべてのデータポイントが完全な直線上に並ぶ場合に限られます。
3. 幾何学的な解釈とコサイン類似度
相関係数の範囲について、ベクトル空間を用いた幾何学的なアプローチからも直感的な解釈が可能です。平均を $0$ に中心化した(偏差を成分とする)2つの $n$ 次元ベクトル $\mathbf{x}$ と $\mathbf{y}$ を考えます。
$$
\mathbf{x} = (x_1 – \bar{x}, x_2 – \bar{x}, \dots, x_n – \bar{x})^T
$$
$$
\mathbf{y} = (y_1 – \bar{y}, y_2 – \bar{y}, \dots, y_n – \bar{y})^T
$$
この2つのベクトルの内積 $\mathbf{x} \cdot \mathbf{y}$ は、偏差の積の和(共分散の分子)に該当します。また、ベクトルのノルム(長さ)$|\mathbf{x}|$ と $|\mathbf{y}|$ は、それぞれ偏差平方和の平方根に該当します。ベクトルのなす角を $\theta$ とすると、内積の定義より以下が成り立ちます。
$$
\cos \theta = \frac{\mathbf{x} \cdot \mathbf{y}}{|\mathbf{x}| |\mathbf{y}|}
$$
この式の右辺を展開すると、ピアソンの積率相関係数の公式と全く同じ形になります。すなわち、相関係数 $r$ とは、多次元空間における「データベクトルのなす角の余弦(コサイン)」と幾何学的に等価です(これをコサイン類似度とも呼びます)。
三角関数の性質上、$\cos \theta$ は常に $-1 \leq \cos \theta \leq 1$ の範囲をとります。この幾何学的事実からも、相関係数の限界値が証明されます。
- $r = 1$ の場合
$\cos \theta = 1$ すなわち $\theta = 0^\circ$。2つのベクトルは全く同じ方向を向いており、完全な正の連動を示します。 - $r = 0$ の場合
$\cos \theta = 0$ すなわち $\theta = 90^\circ$。2つのベクトルは直交しており、直線的な関連性が全く存在しません。 - $r = -1$ の場合
$\cos \theta = -1$ すなわち $\theta = 180^\circ$。2つのベクトルは正反対の方向を向いており、完全な負の連動を示します。
(図2. ベクトルのなす角と相関係数(コサイン類似度))
4. 実務における「スケール不変性」と限界値の活用事例
相関係数が単位に依存せず、必ず $-1 \leq r \leq 1$ に収まるという性質(スケール不変性)は、実務のデータ分析において極めて有用です。以下に具体的な適用事例を示します。
4.1 センサーデータの単位変換と品質管理(製造業)
背景
ある自動車部品メーカーの製造ラインにおいて、加熱炉の温度と成形品の強度の関係を分析していました。本社では温度を「摂氏(℃)」で記録していましたが、海外工場から送られてきたデータは「華氏(℉)」で記録されていました。両工場の設備が同じように稼働しているかを確認する必要があります。
分析と結果
華氏への変換は $F = \frac{9}{5}C + 32$ という線形変換です。相関係数の計算には標準化が含まれるため、定数倍や定数の加算は計算過程で完全に相殺されます。したがって、摂氏で計算した相関係数と華氏で計算した相関係数は数学的に完全に一致します。このスケール不変性により、単位の異なる海外工場のデータ同士でも、相関係数という同一の尺度を用いて「品質のばらつきの連動性」を客観的に比較・統合することが可能となります。
(図3. スケール不変性(摂氏と華氏の比較))
4.2 ポートフォリオ理論におけるリスクヘッジ(金融工学)
背景
金融機関の資産運用部門において、市場の暴落リスクを最小限に抑えるためのポートフォリオ(資産の組み合わせ)を構築するプロジェクトが進行していました。
分析と結果
ここで着目されるのが $r = -1$ という下限値の存在です。現代ポートフォリオ理論(MPT)において、相関係数が負(特に $-1$ に近い)である2つの資産を組み合わせると、一方の資産価値が下落した際に他方が上昇し、全体の価格変動(ボラティリティ)を互いに打ち消し合う効果が生まれます。分析官は、過去の市場データから相関係数が $-0.8$ 程度となる「株式」と「特定の国債」のペアを抽出し、資金を分散投資しました。相関係数の範囲が数学的に保証されているからこそ、リスク低減効果の限界値を定量的にシミュレーションし、安全性の高い金融商品を設計することが可能になります。
(図4. リスクヘッジ効果をもたらす負の相関)
まとめ
相関係数が $-1$ から $1$ の値をとることは、単なる便宜的なルールではなく、データの標準化という統計学的な操作と、コーシー・シュワルツの不等式やベクトル空間におけるコサイン類似度といった強固な数学的基盤によって裏付けられています。
共分散がデータの測定単位に振り回される「絶対的なスケール」であるのに対し、相関係数はデータの背後にある純粋な連動性を抽出した「相対的なスケール」です。この $-1$ から $1$ という普遍的な定規を理解することで、業界やデータの単位を問わず、あらゆる事象の関係性を同一の土俵で比較・評価する強力な視座を得ることができます。

