Top 5 This Week

Related Posts

2.3 ピアソンの積率相関係数とは

- 本サイト運営者のサービスの紹介 -


前項までで解説した共分散は、2変数間の連動性を示す指標ですが、変数の測定単位(スケール)に依存するため、異なる変数のペアや異なるデータセット間での関係性の強さを直接比較できないという数理的な制約があります。このスケール依存性を解消し、関係性を無次元の標準化された数値として評価するための指標が「ピアソンの積率相関係数(Pearson product-moment correlation coefficient)」です。統計学において単に「相関係数」と呼ぶ場合、通常はこのピアソンの積率相関係数を指すことが多いです。

ピアソンの積率相関係数の数理的定義

標本サイズが $n$ のデータセットにおける変数 $X$ と変数 $Y$ のピアソンの積率相関係数 $r$ は、両変数の標本共分散 $S_{xy}$ を、それぞれの標本標準偏差 $S_x$ および $S_y$ の積で除算することで定義されます。

$$
r = \frac{S_{xy}}{S_x S_y} = \frac{\sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i – \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i – \bar{y})^2}}
$$

この計算式は、各データポイントを平均 $0$、標準偏差 $1$ に標準化(Zスコア化)した値の積の平均を求めていることと同義です。変数 $X$ のZスコアを $z_x$、変数 $Y$ のZスコアを $z_y$ とすると、相関係数 $r$ は以下のように簡潔に表現されます。

$$
r = \frac{1}{n-1} \sum_{i=1}^{n} z_{x,i} z_{y,i}
$$

標準化処理を経ることで、相関係数 $r$ は単位を持たない純粋な比率となり、コーシー・シュワルツの不等式により常に $-1 \leq r \leq 1$ の閉区間に収束することが数学的に保証されます。

適用における前提条件(パラメトリックな制約)

ピアソンの積率相関係数は広く利用される一方で、その算出結果を統計学的に正しく解釈するためには、データが特定の条件を満たしている必要があります。特に母集団の相関係数に対する仮説検定(無相関の検定など)を行う場合、以下の前提条件(パラメトリックな制約)が厳密に求められます。

前提条件 詳細な説明 条件を満たさない場合のリスク・対応
連続変数であること 間隔尺度または比例尺度で測定されたデータ(身長、売上金額、温度など)である必要があります。 順序尺度(アンケートの段階評価など)の場合は、スピアマンの順位相関係数などを適用します。
線形性(直線関係) 変数間の関係が直線的である状態を想定しています。 U字型などの非線形な関係性が存在する場合、強い連動性があっても $r \approx 0$ と算出される危険性があります。
2変量正規性 両方の変数が正規分布に従い、かつ2変量の同時分布が2変量正規分布を形成している必要があります。 分布が著しく歪んでいる場合、相関係数の信頼区間推定やp値の計算が不正確になります。ノンパラメトリック手法への切り替えを検討します。
外れ値が存在しないこと 平均値と分散の計算に基づくため、極端な異常値の影響を強く受けます。 少数の外れ値によって相関が過大(または過小)に評価されます。事前に散布図で確認し、除外またはロバストな手法を適用します。

周辺分布を伴う散布図による前提条件の確認

ピアソンの相関係数を算出する前には、単純な散布図だけでなく、各変数の単変量としての分布(周辺分布)を同時に可視化することが推奨されます。

周辺分布(密度曲線)を伴う散布図

(図1. 周辺分布(密度曲線)を伴う散布図)

上図のように、散布図のX軸およびY軸の外側にヒストグラムやカーネル密度推定曲線を配置することで、2変数間の線形性を確認すると同時に、各変数が正規分布に近い形状(ベルカーブ)を描いているか、あるいは裾野に外れ値が潜んでいないかを視覚的かつ網羅的に検査することが可能になります。このような探索的データ分析の手順を踏むことで、ピアソンの相関係数を適用する妥当性を担保します。

【実務事例】製造業における連続変数の関係性評価

実務においてピアソンの積率相関係数がどのように適用され、前提条件の確認がいかに機能するかを、信頼性工学の観点から解説します。

課題の背景
ある電子部品メーカーにおいて、製品寿命を縮める要因として「稼働時の周囲温度(℃)」と「内部抵抗値($\Omega$)」の関連性が疑われていました。両変数は連続変数であり、物理的性質から線形関係が想定されたため、ピアソンの積率相関係数を用いた評価を実施することになりました。

分析プロセスと前提条件の検証
抽出された300サンプルのデータに対し、計算機に投入して相関係数を算出する前に、周辺分布を伴う散布図を作成しました。その結果、以下の事実が判明しました。

  • 温度の周辺分布は正規分布に従っていた。
  • 内部抵抗値の周辺分布は右に裾を引く対数正規分布に近い形状を示しており、正規性の仮定に違反していた。
  • 散布図上に、製造上の特異なエラーに起因する極端な外れ値が3点存在していた。
外れ値と歪みを含む生データの散布図

(図2. 外れ値と歪みを含む生データの散布図)

統計的対応と評価
生のデータのままピアソンの積率相関係数を計算すると $r = 0.82$ という強い正の相関が示されましたが、外れ値に引きずられた過大評価である可能性が高いと判断されました。そこで、外れ値を除外した上で、内部抵抗値に対数変換($\log(Y)$)を施して正規性を確保しました。変換後のクリーンなデータを用いて再度ピアソンの積率相関係数を算出したところ、$r = 0.55$ と中程度の正の相関に落ち着きました。

外れ値除外・対数変換後の散布図

(図3. 外れ値除外・対数変換後の散布図)

この結果をもとに、メーカーは温度上昇に伴う内部抵抗の増加が一定の範囲内に収まっているという正確な現状認識を得ることができ、過剰な冷却システムの搭載を見送るというコスト最適化の意思決定を下しました。パラメトリックな制約を正確に理解し、分布の形状を統制した上で指標を適用することが、誤った経営判断を防ぐ防波堤となります。

Popular Articles