前項で触れた共分散の概念を発展させ、変数のスケール(単位)に依存せずに2変数間の直線的な関係性の強さを測定する絶対的な指標が「ピアソンの積率相関係数」です。本項では、この相関係数がどのような数理的プロセスを経て算出されるのか、計算式を構成する各要素の意味を分解しながら詳細に解説します。
ピアソンの積率相関係数 $r$ は、データポイントの数を $n$、各変数の値を $x_i, y_i$、それぞれの標本平均を $\bar{x}, \bar{y}$ としたとき、以下の計算式によって定義されます。
$$
r = \frac{\sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i – \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i – \bar{y})^2}}
$$
この式は一見複雑に見えますが、分子と分母のそれぞれの役割を紐解くことで、相関係数が持つ幾何学的および統計学的な意味が明確になります。
| 式の構成要素 | 数式 | 統計学的な意味と役割 |
|---|---|---|
| 分子 | $\sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})$ | 偏差積和(共分散の分子):2つの変数が平均を基準として同じ方向に変動する傾向の強さを示します。方向性(正・負)を決定します。 |
| 分母 | $\sqrt{\sum_{i=1}^{n} (x_i – \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i – \bar{y})^2}$ | 偏差平方和の平方根の積:各変数のデータの散らばり具合(標準偏差の分子)の積です。分子を割り引いて値を $-1$ から $1$ の範囲に標準化する役割を持ちます。 |
分子の構造:偏差積和による方向性の決定
式の分子は「偏差積和(Sum of Products of Deviations)」と呼ばれます。各データポイントについて、変数 $X$ の平均からの距離(偏差)と、変数 $Y$ の平均からの距離(偏差)を掛け合わせたものを、全データポイントについて足し合わせた値です。
この偏差積和は、2つの変数が共に平均より大きい、または共に平均より小さいデータ点が多いほど「正の大きな値」をとります。逆に、一方が平均より大きく他方が平均より小さいデータ点が多いほど「負の大きな値」をとります。つまり、相関係数の符号(関係の方向性)は、この分子の計算結果によって完全に決定されます。
(図1. 偏差と平均値から見る共分散の構造)
分母の構造:測定単位の標準化
式の分母は、変数 $X$ の偏差平方和の平方根と、変数 $Y$ の偏差平方和の平方根の積です。これは、各変数のデータの変動の大きさを表しています。
分子の偏差積和をこの分母で割るという数学的操作は「標準化(Normalization)」を意味します。変数の測定単位(たとえば、温度の℃と売上の円、身長のcmと体重のkgなど)に関わらず、計算結果がコーシー・シュワルツの不等式により必ず $-1 \leq r \leq 1$ の範囲に収まるようにスケールを調整しています。この標準化によって、異なるデータセット間での関係性の強さを客観的に比較することが可能になります。
ベクトル空間における幾何学的解釈
さらに数理的な観点を深めると、相関係数は線形代数学における「ベクトルのなす角の余弦(コサイン)」として解釈することが可能です。平均からの偏差を要素とする $n$ 次元のベクトルを考えます。変数 $X$ の偏差ベクトルを $\vec{x}$、変数 $Y$ の偏差ベクトルを $\vec{y}$ と定義します。
$$
\vec{x} = (x_1 – \bar{x}, x_2 – \bar{x}, \dots, x_n – \bar{x})^T
$$
$$
\vec{y} = (y_1 – \bar{y}, y_2 – \bar{y}, \dots, y_n – \bar{y})^T
$$
このとき、相関係数の分子(偏差積和)は2つのベクトルの内積 $\vec{x} \cdot \vec{y}$ に相当し、分母は2つのベクトルのノルム(長さ)の積 $\|\vec{x}\| \|\vec{y}\|$ に相当します。したがって、相関係数 $r$ は以下の式で表現されます。
$$
r = \frac{\vec{x} \cdot \vec{y}}{\|\vec{x}\| \|\vec{y}\|} = \cos \theta
$$
ここで、$\theta$ は2つの偏差ベクトルがなす角です。2つの変数が完全に連動して変動する場合、ベクトルの向きが一致し $\theta = 0^\circ$、つまり $\cos 0^\circ = 1$ となります。逆に全く逆の動きをする場合は $\theta = 180^\circ$ となり $\cos 180^\circ = -1$ です。直交(無相関)の場合は $\theta = 90^\circ$ であり $\cos 90^\circ = 0$ となります。相関係数とは、変数の関係性を「角度」という客観的な指標に変換したものと理解できます。
回帰直線と残差による視覚的解釈
相関係数の計算式は、単回帰分析における回帰直線の当てはまりの良さ(適合度)とも密接に関連しています。変数 $X$ から変数 $Y$ を予測する最小二乗法による直線を引いた場合、各データポイントから直線に対して引いた垂直な線分が「残差(Residual)」です。
(図2. 回帰直線と残差(相関係数の視覚的解釈))
相関係数の2乗($r^2$)は「決定係数(Coefficient of Determination)」と呼ばれ、変数 $Y$ の全体のばらつきのうち、回帰直線(変数 $X$)によって説明できる割合を示します。データポイントが回帰直線上に完全に配置されている場合、残差はすべて $0$ となり、決定係数は $1$(相関係数は $1$ または $-1$)となります。逆に、データポイントが直線から大きく散らばり、残差が大きくなるほど、相関係数は $0$ に近づきます。相関分析と回帰分析は目的が異なりますが、その根底にある数理的な評価構造は共有されています。
実務における相関係数の計算と適用事例
背景
ある製造業の生産技術部門において、金属部品の切削工程におけるプロセス最適化を検討しています。工作機械の「主軸回転速度(rpm)」と、加工後の部品の「表面粗さ(μm)」という2つの連続変数のデータが過去500回の稼働ログとして蓄積されており、これらの関係性を定量的に評価することが求められました。
分析アプローチ
500サンプルの稼働ログデータを用いて、回転速度の平均値および表面粗さの平均値をそれぞれ算出します。次に、各サンプルについて平均値からの偏差を求め、上述の公式に従って偏差積和(分子)と偏差平方和(分母)を計算しました。結果として、ピアソンの積率相関係数 $r = -0.76$ が算出されました。
結果の解釈と意思決定
算出された $r = -0.76$ という数値は、主軸回転速度と表面粗さの間に強い負の直線的関係が存在することを示しています。すなわち、回転速度を上げるほど、表面粗さの数値が小さくなる(表面が滑らかになる)傾向が確認されました。さらに、決定係数 $r^2 \approx 0.58$ を計算することで、表面粗さのばらつきの約58%が回転速度の違いによって説明可能であると結論付けられました。この数理的な裏付けをもとに、生産技術部門は加工基準書を改訂し、品質要求を満たす最適な回転速度の下限値を再設定する意思決定を行いました。
(図3. 主軸回転速度と表面粗さの負の相関)

