2026年 3月 17日 火曜日

Top 5 This Week

Related Posts

2.1 共分散の計算式と意味

- 本サイト運営者のサービスの紹介 -


相関分析を数理的に深く理解するうえで、最も基礎となる概念が「共分散(Covariance)」です。前項までに、相関関係の全体像や因果関係との違いについて言及しましたが、2つの変数が「どのように連動してばらついているか」を定量化する出発点がこの共分散の計算にあります。

本項では、相関係数の土台となる共分散の数学的な定義式を分解し、散布図上における幾何学的な意味(面積としての解釈)を解説します。また、共分散という指標が持つ統計学的な限界と、それを実務でどのように取り扱うべきかについて詳述します。

共分散の計算式と意味

共分散は、2つの変数 $X$ と $Y$ が、それぞれの平均値からどの程度同じ方向に偏っているか(あるいは逆方向に偏っているか)を示す統計量です。変数が同じ方向に動く傾向があれば共分散は正の値をとり、逆方向に動く傾向があれば負の値をとり、互いに独立であればゼロに近づきます。

標本共分散の定義式

手元にある $n$ 個の観測データ(標本)から計算される標本共分散 $S_{xy}$ は、以下の式で定義されます。

$$
S_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})
$$

ここで、各記号は以下の意味を持ちます。

  • $x_i, y_i$ は、それぞれ $i$ 番目のデータの変数 $X$ と変数 $Y$ の値です。
  • $\bar{x}, \bar{y}$ は、それぞれ変数 $X$ と変数 $Y$ の標本平均です。
  • $(x_i – \bar{x})$ および $(y_i – \bar{y})$ は「偏差(Deviation)」と呼ばれ、各データポイントが平均からどれだけ離れているかを示します。
  • 分母の $n-1$ は「自由度」であり、母集団の共分散(母共分散)を不偏推定するための補正です(不偏共分散)。

この式の核心は「偏差の積 $(x_i – \bar{x})(y_i – \bar{y})$ の平均(期待値)」を求めている点にあります。この「偏差の積」がどのような意味を持つのかは、幾何学的な視点を取り入れることで明確になります。

散布図における4象限と「面積」としての解釈

共分散のメカニズムを視覚的に理解するために、散布図の上に変数 $X$ の平均値 $\bar{x}$ を示す垂直な線と、変数 $Y$ の平均値 $\bar{y}$ を示す水平な線を引きます。これにより、散布図は平均値を原点とする4つの象限に分割されます。

共分散の幾何学的解釈(平均からの偏差と面積)

(図1. 共分散の幾何学的解釈(平均からの偏差と面積))

各データポイント $(x_i, y_i)$ と平均値の交点 $(\bar{x}, \bar{y})$ を対角とする長方形を描いたとき、その長方形の「符号付き面積」が偏差の積 $(x_i – \bar{x})(y_i – \bar{y})$ に相当します。データポイントがどの象限に位置するかによって、この面積の符号(正負)が決定されます。

象限 位置関係 偏差の符号 $X$ 偏差の符号 $Y$ 偏差の積(面積の符号)
第1象限(右上) $x_i > \bar{x}$ かつ $y_i > \bar{y}$ $+$ (正) $+$ (正) $+$ (正)
第2象限(左上) $x_i < \bar{x}$ かつ $y_i > \bar{y}$ $-$ (負) $+$ (正) $-$ (負)
第3象限(左下) $x_i < \bar{x}$ かつ $y_i < \bar{y}$ $-$ (負) $-$ (負) $+$ (正)
第4象限(右下) $x_i > \bar{x}$ かつ $y_i < \bar{y}$ $+$ (正) $-$ (負) $-$ (負)

共分散 $S_{xy}$ は、すべてのデータポイントにおけるこれらの長方形の符号付き面積を足し合わせ、データ数で割った値(平均的な面積)です。

  • データが全体的に右肩上がりの傾向を持つ場合、多くの点が第1象限と第3象限に集まります。正の面積が負の面積を上回るため、共分散の総和は大きな正の値となります。
  • 逆に、データが右肩下がりの傾向を持つ場合、多くの点が第2象限と第4象限に集積し、負の面積が支配的となるため、共分散は負の大きな値を示します。
  • データが4つの象限に均等に散らばっている場合、正の面積と負の面積が互いに相殺し合うため、共分散はゼロに近づきます(無相関)。

共分散の限界と単位依存性

共分散は2変数の関係性の方向(正か負か)を示す指標として優れていますが、データ分析において単独で用いられることは稀です。その最大の理由は、「測定単位(スケール)に強く依存する」という特性を持っているためです。

偏差の積を計算している性質上、共分散の値は変数の単位を変換するだけで大きく変動します。例えば、ある集団の「身長」と「体重」の共分散を計算するとします。身長を「メートル(m)」で測定した場合と、「センチメートル(cm)」で測定した場合では、センチメートルで測定した方が数値が100倍大きくなるため、算出される共分散の値も連動して大きくなります。

このように、共分散の絶対値の大きさは測定単位に依存するため、「共分散が150だから関係性が強い」「共分散が0.5だから関係性が弱い」といった普遍的な評価を下すことができず、異なるデータセット間で関係性の強さを比較することも不可能です。この欠点を克服し、スケールに依存しない純粋な関係性の強さを評価するために、次項で解説する「相関係数」という指標への変換(標準化)が必要となります。

実務事例における共分散の評価

共分散の特性と限界を踏まえ、実際の製造現場においてデータがどのように評価されるかの事例を示します。

背景
ある精密機械メーカーのコーティング工程において、工場内の「外気湿度(%)」と「塗料の乾燥時間(分)」のデータを1ヶ月間収集しました。目的は、湿度の変動が乾燥プロセスに与える影響の方向性を確認することです。

分析と評価
収集したデータから外気湿度と乾燥時間の標本共分散を計算した結果、$S_{xy} = 45.2$ という正の値が得られました。この数値自体はスケールに依存した「面積の平均」に過ぎませんが、「正の値である」という事実から、「工場内の湿度が平均より高い日は、塗料の乾燥時間も平均より長くなる(第1象限)」および「湿度が平均より低い日は、乾燥時間も平均より短くなる(第3象限)」というプロセス上の物理的な連動性が存在することが定量的に確認されました。

次のステップへの移行
共分散によって「湿度が上がると乾燥時間も延びる」という関係性の方向は立証されました。しかし、$45.2$ という数値が、工程管理上どの程度強固な結びつき(予測可能なレベルか、誤差の範囲内か)を示しているのかは、この段階では判断できません。そのため、現場のエンジニアは次のステップとして、それぞれの変数の標準偏差を用いてこの共分散を標準化し、「ピアソンの積率相関係数」を算出するプロセスへと移行します。

Popular Articles