2025年 11月 18日 火曜日

Top 5 This Week

Related Posts

5.13 ピアソンの相関分析


ピアソンの相関分析(Pearson correlation analysis)は、2つの連続変数(測定尺度が間隔尺度または比尺度の変数)の間にどの程度の線形関係(直線的な関連性)があるかを評価する統計学的手法です。 この手法は統計学において最も基本的かつ広く利用される分析法の1つであり、心理学・教育学・経済学・医学など、さまざまな分野で用いられています。

相関係数の定義と直感

ピアソンの相関係数(Pearson’s correlation coefficient)は、変数間の共分散(2つの変数がどの程度一緒に変動するかを示す量)を、それぞれの標準偏差(データのばらつき)で標準化した値です。 この指標は−1から+1までの値を取り、+1に近いほど強い正の相関(片方が増えるともう片方も増える傾向)、−1に近いほど強い負の相関(片方が増えるともう片方は減る傾向)、0に近いほど線形関係が弱い(あるいは存在しない)ことを意味します。

相関分析の目的

ピアソンの相関分析の目的は、2つの量的変数の間に存在する「線形関係の強さと方向」を数値的に把握することにあります。この分析を通じて、以下のような情報を得ることができます。

  • 変数Aと変数Bがどの程度関連しているか。
  • 変数Aが増加すると変数Bも増加するのか、あるいは減少するのか。
  • 相関の強さが統計的に有意であるか(偶然ではないか)。

相関分析は単に「関連の存在」を示すものであり、「因果関係(片方がもう片方を引き起こす関係)」を示すものではない点に注意が必要です。

前提条件

  • 連続変数であること:両方の変数は連続尺度(間隔尺度または比尺度)で測定されている必要があります。カテゴリー変数や順位尺度変数には適しません。
  • 線形関係であること:ピアソンの相関係数は線形関係を測定する指標です。非線形関係(たとえばU字型の関係)が存在する場合でも、相関係数は0付近となり、「関係がない」と誤って判断する可能性があります。
  • 正規分布:2つの変数がともに正規分布(釣鐘型の分布)に従っていることが望ましいです。特に、検定を行う場合には、母集団での正規性が重要な仮定となります。
  • 等分散性:2つの変数の間で、値の大きさによって分散が変化しない(散布図が楕円状に広がっている)ことが前提です。
  • 独立性:各観測は互いに独立している必要があります。繰り返し測定データなど、同一被験者の複数測定値を扱う場合には別の方法(例えば偏相関分析や混合モデル)を検討します。

数式モデル

ピアソンの積率相関係数は次の式で定義されます。

$$
r = \frac{\sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y})}
{\sqrt{\sum_{i=1}^n (x_i – \bar{x})^2 \sum_{i=1}^n (y_i – \bar{y})^2}}
$$

\(x_i\):変数Xの各観測値、\(y_i\):変数Yの各観測値、\(\bar{x}\):変数Xの平均値、\(\bar{y}\):変数Yの平均値、\(n\):サンプルサイズ

分子はXとYの共分散、分母はそれぞれの標準偏差の積です。

共分散の定義は以下の通りです。

$$
\mathrm{Cov}(X,Y)=\frac{1}{n-1}\sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y})
$$

検定の理論的背景

ピアソンの相関係数が0(つまり、線形関係がない)という帰無仮説を検定するためには、次の統計量を用います。

$$
t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}
$$

この統計量は自由度 \(n-2\) のt分布に従います。したがって、対応するp値を算出し、有意水準(通常は0.05)と比較して有意かどうかを判断します。

帰無仮説 \(H_0: \rho = 0\)(母相関係数が0)

対立仮説 \(H_1: \rho \neq 0\)(母相関係数が0でない)

p値が0.05未満の場合、「有意な相関がある」と結論づけます。

効果量

ピアソンの相関係数そのものが効果量の指標として機能します。一般に、Cohen(1988)による基準は次の通りです。

  • 相関係数 \(r\):効果量の大きさ
  • 0.10:小さい効果
  • 0.30:中程度の効果
  • 0.50:大きい効果

また、相関係数を決定係数(Coefficient of Determination)に変換することで、「片方の変数がもう片方の変数の分散をどの程度説明するか」を示すことができます。

$$
R^2 = r^2
$$

たとえば \(r = 0.6\) の場合、\(R^2 = 0.36\) となり、変数Xが変数Yの36%の分散を説明していることを意味します。

ピアソンの相関とスピアマンの順位相関の違い

  • 対象データ:ピアソン相関=連続変数(間隔・比尺度)、スピアマン=順位データまたは順位化可能な連続変数
  • 前提:ピアソン=線形関係・正規分布、スピアマン=単調関係(非線形でも可)
  • 計算方法:ピアソン=実値を用いる、スピアマン=順位に変換して計算
  • 外れ値の影響:ピアソン=大きい、スピアマン=小さい
  • 主な用途:ピアソン=連続変数の線形関係を調べる、スピアマン=順位データの関連性を調べる

散布図による視覚的確認

ピアソンの相関分析を行う前に、散布図(Scatter plot)を描くことが非常に重要です。散布図では、変数XとYの関係を視覚的に確認でき、以下のようなパターンが現れます。

  • 点が右上がりの直線状 → 正の相関
  • 点が右下がりの直線状 → 負の相関
  • 点が円形に広がる → 相関なし
  • 曲線状に分布 → 非線形関係(ピアソン相関では不適)

この確認により、ピアソン相関を適用する妥当性を判断することができます。

実例

実例1:身長と体重の関係

20名の成人男女について、身長(cm)と体重(kg)を測定しました。散布図では右上がりの傾向が見られ、ピアソンの相関係数を求めたところ、\(r = 0.82\) でした。自由度18のt検定では \(t = 6.37\)、p < 0.001であり、統計的に有意な正の相関が確認されました。

決定係数 \(R^2 = 0.82^2 = 0.67\) より、体重の約67%は身長によって説明されることになります。これは非常に強い線形関係を示しており、「背が高い人ほど体重が重い」という関係があるといえます。

実例2:学習時間と試験得点

高校生30名の1日あたりの平均学習時間(時間)と模試の得点を記録しました。分析の結果、\(r = 0.58\)、p = 0.001となり、中程度の正の相関が認められました。つまり、学習時間が長いほど得点も高くなる傾向があります。ただし、決定係数 \(R^2 = 0.34\) であるため、得点の変動の約3分の1しか学習時間で説明できず、残りは他の要因(学習効率、集中力など)に起因する可能性があります。

実例3:年齢と睡眠時間

40人の被験者について、年齢と平均睡眠時間を調べたところ、相関係数 \(r = -0.45\)、p = 0.004 でした。負の相関が有意に認められ、「年齢が高いほど睡眠時間が短い傾向」があるといえます。効果量としては中程度の負の効果です。

実例4:薬剤用量と血圧低下量

臨床研究で、降圧薬の用量(mg)と血圧低下量(mmHg)との関係を調べました。\(r = 0.25\)、p = 0.18であり、有意ではありませんでした。これは「相関がない」と解釈しますが、実際には非線形関係(一定量までは効果が増加し、その後頭打ちになる)である可能性もあり、散布図の確認が重要です。

相関係数の信頼区間

母相関係数 \(\rho\) の信頼区間は、Fisherのz変換を用いて求めます。まず、相関係数 \(r\) をz値に変換します。

$$
z = \frac{1}{2}\ln\left(\frac{1+r}{1-r}\right)
$$

このときの標準誤差は次のようになります。

$$
\mathrm{SE}_z = \frac{1}{\sqrt{n-3}}
$$

95%信頼区間は、

$$
z_{\text{lower}} = z – 1.96 \times \mathrm{SE}_z \\
z_{\text{upper}} = z + 1.96 \times \mathrm{SE}_z
$$

これを再び \(r\) に戻します。

$$
r_{\text{lower}} = \frac{e^{2 z_{\text{lower}}} – 1}{e^{2 z_{\text{lower}}} + 1} \\
r_{\text{upper}} = \frac{e^{2 z_{\text{upper}}} – 1}{e^{2 z_{\text{upper}}} + 1}
$$

これにより、母相関係数の区間推定が可能です。

注意点

  • 因果関係ではない:相関があっても、必ずしも因果関係があるとは限りません。第三の変数(交絡因子)が両者に影響している場合があります。
  • 外れ値の影響が大きい:1つの極端な値が相関係数を大きく変えることがあります。外れ値を除外するか、スピアマン順位相関を代わりに使用することが推奨されます。
  • 非線形関係を見逃す可能性:非線形関係を持つデータでは、ピアソン相関係数が0に近くなり「関係がない」と誤解される場合があります。散布図を必ず確認することが重要です。
  • 正規性の確認:ピアソンの相関の検定では、各変数の分布が正規分布に近いことが前提です。正規性が疑わしい場合は、ノンパラメトリックなスピアマン順位相関を使用します。

相関分析の拡張

偏相関(Partial correlation)

他の変数の影響を取り除いたうえで、2変数間の関係を調べる方法です。例えば、学習時間と試験得点の関係を調べる際に、年齢や学年の影響を除くことができます。偏相関係数は次のように表されます。

$$
r_{xy.z} = \frac{r_{xy} – r_{xz} r_{yz}}{\sqrt{(1 – r_{xz}^2)(1 – r_{yz}^2)}}
$$

重相関(Multiple correlation)

複数の説明変数が目的変数にどの程度関連するかを表す指標です。回帰分析の決定係数 \(R^2\) の平方根が重相関係数 \(R\) です。

$$
R = \sqrt{R^2}
$$

多変量相関行列

複数の変数間の相関をまとめたものを相関行列(Correlation matrix)と呼びます。行列の対角要素はすべて1(各変数の自己相関)、非対角要素はそれぞれの変数間の相関係数です。

例:\([ [1, r_{12}, r_{13}], [r_{21}, 1, r_{23}], [r_{31}, r_{32}, 1] ]\)

相関の解釈に関する実務的視点

相関係数の大きさを単に「有意か否か」で判断するのは危険です。サンプルサイズが大きい場合、実質的に小さな相関(たとえば \(r=0.10\))でも有意になることがあります。したがって、実務的な解釈には以下を併記することが推奨されます。

  • 相関係数 \(r\)(符号と値)
  • p値(統計的有意性)
  • 決定係数 \(r^2\)(説明率)
  • 効果量の解釈(Cohen基準)

相関係数が高いからといって、必ずしも因果関係を意味するわけではない。背景知識や研究設計に基づいた慎重な判断が必要である。

相関係数の検定(再掲)

ピアソンの相関分析では、単に相関係数を求めるだけでなく、その相関が統計的に有意かどうかを検定します。検定統計量は次の通りです。

$$
t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}
$$

自由度は \(df = n – 2\) であり、t分布に基づいてp値を算出します。nが非常に大きい場合、rがごく小さくてもp値が有意になるため、有意性だけでなく効果量にも注目することが重要です。

まとめ

ピアソンの積率相関分析は、連続変数間の線形関係を評価するための基本的な手法です。その数式モデルは単純でありながら、心理学、医学、社会科学、工学など多様な分野で利用されています。

解析にあたっては、正規性、線形性、外れ値の有無といった前提条件を慎重に確認し、必要に応じてスピアマン相関やケンドール相関に切り替える柔軟性が求められます。また、p値の有意性に依存するのではなく、相関係数そのものの大きさ(効果量)や決定係数を用いた解釈を行うことが、実質的な意味のある分析につながります。

ピアソン相関は単に「関係があるか」を問う統計手法ではなく、「どの程度の線形的な共変動が存在するか」を把握するための道具であり、適切に前提条件を検証し、外れ値や非線形性を考慮した上で用いることで、より正確で信頼性の高い結論を導くことができます。

Popular Articles