2025年 11月 18日 火曜日

Top 5 This Week

Related Posts

5.14 スピアマンの順位相関係数


スピアマンの順位相関係数(Spearman’s rank correlation coefficient)は、2つの変数間の単調な関係(一方が増えるともう一方も増加または減少する関係)の強さと方向を測定するノンパラメトリック手法(母集団の分布形状を仮定しない統計的方法)です。
この係数は、データが正規分布(左右対称で釣鐘型の確率分布)に従わない場合や、外れ値(他のデータと著しく異なる値)の影響が懸念される場合に、ピアソンの積率相関係数の代替として広く利用されています。

本稿では、スピアマン順位相関係数の理論的背景から、数式モデル、効果量の解釈、応用例、注意点までを体系的に解説します。

相関係数とは

相関係数(correlation coefficient)は、2つの変数の間にどの程度の関連性があるかを数量的に表す指標です。
一般的な相関係数には以下のような種類があります。

  • ピアソンの積率相関係数:2つの連続変数間の線形関係の強さを測る(適用条件:正規分布・等分散性が前提)
  • スピアマンの順位相関係数:2つの変数間の単調関係の強さを測る(適用条件:分布形状を問わない)
  • ケンドールの順位相関係数:すべてのペアの一致率・不一致率に基づく順位相関(適用条件:小標本に適する)

スピアマン順位相関は、ピアソンの相関のノンパラメトリック版に位置づけられ、データが非線形でも単調な関係を示す場合に適切な手法となります。

スピアマン順位相関係数の定義

スピアマンの順位相関係数(記号:\(\rho_s \) または \( r_s \))は、各変数の値を順位(rank)に変換したうえで、ピアソンの積率相関係数を求めたものです。すなわち、元データ \( X_i, Y_i \) の代わりに、それぞれの順位 \( R_i, S_i \) を用いて相関を計算します。

数式モデル

スピアマンの順位相関係数は、次のように定義されます。

$$
\rho_s = 1 – \frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)}
$$

ここで、

  • \( n \):データのペア数
  • \( d_i = R_i – S_i \):各観測値における順位の差
  • \( R_i, S_i \):それぞれの変数におけるi番目の順位

この式は、2つの変数が完全に一致する(順位が全く同じ)場合に \( \rho_s = 1 \)、完全に逆順の場合に \( \rho_s = -1 \) となります。つまり、\( \rho_s \) は −1 から +1 の範囲を取り、0 に近いほど関連が弱く、±1 に近いほど強い単調関係を示します。

順位の割り当て方法

スピアマン相関では、元の数値データを順位に置き換えるため、順位付けの方法が重要になります。順位の付け方には、特に同順位が存在する場合に注意が必要です。

順位の付与方法

  • すべての観測値を昇順に並べる。
  • 最小の値を順位1、次を2、…として割り当てる。
  • 同順位がある場合は、その順位の平均を割り当てる(例:2位が2つある場合は2.5位をそれぞれに与える)。

同順位補正を考慮した場合、厳密な \( \rho_s \) は次のように計算されます。

$$
\rho_s = \frac{\mathrm{Cov}(R,S)}{\sigma_R \sigma_S}
$$

ここで、Cov(R, S):順位間の共分散、\( \sigma_R, \sigma_S \):順位の標準偏差。すなわち、スピアマン相関は、順位データ間のピアソン相関です。

前提条件

  • 変数間の関係が単調であること。必ずしも線形である必要はありませんが、一方が増加するにつれてもう一方も一方向に増加または減少する単調性が必要です。
  • データが独立していること。観測値が互いに独立であることが前提です。同一被験者から繰り返し測定したデータには対応していません。
  • 尺度が順序尺度以上であること。各変数は、順序尺度(順位づけ可能な尺度)またはそれ以上(間隔尺度・比尺度)である必要があります。

これらの前提条件が満たされていれば、分布の正規性や外れ値の存在に影響されずに適用できます。

スピアマン相関の特徴と利点

  • 順位を用いるため外れ値に強い:数値の大小のみを利用するため、極端な値の影響を受けにくい
  • 分布の仮定が不要:データが正規分布に従う必要がない
  • 単調関係を評価できる:非線形でも、一方向的に変化する関係を捉えられる
  • 名義尺度には不適:順序の概念が必要

一方で、ピアソン相関と異なり「線形関係の強さ」ではなく「単調関係の強さ」を測定する点に注意が必要です。

スピアマン相関の検定

スピアマン相関係数が得られた後、それが統計的に有意な相関かどうかを判断するために検定を行います。帰無仮説と対立仮説は以下のように設定されます。

  • 𝐻0:\( \rho_s = 0 \)(順位相関がない)
  • 𝐻1:\( \rho_s \neq 0 \)(順位相関がある)

検定統計量は、\( n \) が十分大きい場合(\( n \ge 10 \) 程度)には t 分布を近似的に利用できます。

$$
t = \frac{\rho_s \sqrt{n – 2}}{\sqrt{1 – \rho_s^2}}
$$

この t 値を自由度 \( n – 2 \) の t 分布と比較して p 値を求めます。小標本(\( n < 10 \))の場合には、正確確率(exact p-value)を用いるのが適切です。

効果量としての解釈

スピアマンの順位相関係数そのものが効果量(effect size)です。Cohen(1988)による経験的な解釈基準は以下の通りです。

  • 相関の絶対値 0.10:小さい効果(弱い関係)
  • 相関の絶対値 0.30:中程度の効果(中程度の関係)
  • 相関の絶対値 0.50:大きい効果(強い関係)

ただし、研究分野によって「実質的に意味のある効果」の基準は異なり、心理学・教育学では0.3程度でも有意義とされる一方、物理学や生理学などでは0.6以上を強い関係とみなすことが一般的です。

\( \rho_s \) と \( \rho \)(ピアソン相関)の関係

  • \( \rho_s \) は、\( \rho \) の単調変換に対して不変である。つまり、\( Y = f(X) \) が単調増加関数なら、\( \rho_s = \pm 1 \) となる可能性があります。
  • 正確な線形関係では、\( \rho_s \approx \rho \) となる。つまり、データが線形に近い場合、スピアマン相関とピアソン相関の値はほぼ同じです。

計算例の詳細

例題データ

i X Y
1 10 8
2 12 7
3 15 12
4 20 15
5 25 25

それぞれの順位を求めると次の通りです。

i X Y R(X) R(Y) d = R(X) − R(Y)
1 10 8 1 2 −1 1
2 12 7 2 1 1 1
3 15 12 3 3 0 0
4 20 15 4 4 0 0
5 25 25 5 5 0 0
\( \sum d_i^2 = 2 \)

したがって、

$$
\rho_s = 1 – \frac{6 \times 2}{5(5^2 – 1)} = 1 – \frac{12}{120} = 0.9
$$

強い正の相関(0.9)となります。

実例

以下に3つの応用事例を示します。

実例1:生徒の勉強時間と試験成績

50名の生徒の「1週間の勉強時間」と「テストスコア」の関係を調べたところ、分布が非正規で外れ値も含まれていました。スピアマン相関を用いたところ、\( \rho_s = 0.72 \)、\( p < 0.001 \) という結果が得られ、強い正の単調関係があると判断されました。ピアソン相関では \( \rho = 0.65 \) であったため、スピアマンの方がやや高い値を示しています。これは、勉強時間が長いほどおおむね成績が高くなるが、完全に線形ではない関係であることを示唆しています。

実例2:年齢とスマートフォン使用時間

200人の調査で、年齢(歳)と1日のスマートフォン利用時間(時間)を比較したところ、\( \rho_s = -0.48 \)、\( p < 0.001 \) でした。負の順位相関が中程度の強さで存在することを意味し、年齢が高いほどスマートフォン使用時間が短い傾向を示しています。この関係は線形ではなく、特に高齢層で利用時間の減少が顕著であるため、スピアマン相関が適しています。

実例3:ストレスレベルと睡眠時間

100人の社会人を対象に、ストレススコア(高いほどストレス大)と平均睡眠時間を測定した結果、\( \rho_s = -0.65 \)、\( p < 0.001 \) でした。強い負の単調関係を示しており、ストレスが高い人ほど睡眠時間が短い傾向があることを示しています。このデータでは外れ値(極端に短い睡眠時間の人)が含まれていたため、スピアマン相関を採用することで外れ値の影響を抑え、より頑健な解析が可能になりました。

スピアマン相関の注意点

  • 線形関係の強さを測るものではない:スピアマン相関は単調関係の強さを測るものであり、線形関係の有無を直接評価するものではありません。線形性を確認したい場合はピアソン相関を用いる必要があります。
  • 非単調関係では誤解を生む可能性:一方が増加した後に減少するような関係(非単調な関係)の場合、\( \rho_s \) は0に近くなり、関係がないように見えることがあります。
  • 同順位が多い場合の補正が必要:データに同順位が多いとき、単純な式(6Σd²式)では誤差が生じます。この場合は順位補正を含む共分散定義式を使用する必要があります。
  • カテゴリカル変数には不適:順序尺度以下(名義尺度)の変数を扱う場合、順位の定義が不明確となり、スピアマン相関は適用できません。
  • 外れ値に完全に無影響ではない:順位に変換するため外れ値の影響は軽減されますが、順位付け自体が極端に変化する場合は結果に影響することがあります。

\( \rho_s \) の信頼区間

スピアマン順位相関係数の信頼区間(confidence interval)は、近似的にフィッシャーの z 変換を用いて求められます。

まず z 変換をします。

$$
z = \frac{1}{2} \ln\left(\frac{1 + \rho_s}{1 – \rho_s}\right)
$$

この z の標準誤差は

$$
SE_z = \frac{1}{\sqrt{n – 3}}
$$

であり、95%信頼区間は次の式で計算されます。

$$
z \pm 1.96 \times SE_z
$$

これを再び逆変換して \( \rho_s \) の区間を得ます。

$$
\rho_s = \frac{e^{2z} – 1}{e^{2z} + 1}
$$

この方法により、標本相関の不確実性を定量的に評価できます。

スピアマン相関の応用分野

  • 心理学・教育学:態度尺度・自己評価尺度・学力テストスコアなど、順序データの関連評価。
  • 医学・生物統計:疾患重症度スコアと生理指標(例:炎症マーカー値)の関連。
  • 経済学・社会学:所得順位と幸福度スコア、消費支出順位と満足度の関係。
  • マーケティング:顧客満足度(順位尺度)と購買意欲の関連評価。

これらの分野では、分布が非正規であることが多いため、スピアマン相関が標準的な解析手法として採用されることが多いです。

ピアソン相関との比較まとめ

  • 測定対象:ピアソン相関=線形関係、スピアマン相関=単調関係
  • データ型:ピアソン=間隔尺度・比尺度、スピアマン=順序尺度以上
  • 前提条件:ピアソン=正規分布・等分散性、スピアマン=分布仮定なし
  • 外れ値の影響:ピアソン=受けやすい、スピアマン=受けにくい
  • 計算基準:ピアソン=元の値、スピアマン=順位
  • 効果量の意味:ピアソン=線形の強さ、スピアマン=単調性の強さ

まとめ

スピアマンの順位相関係数は、2つの変数の間に単調関係が存在するかを検出し、その強さを定量化するための強力なノンパラメトリック手法です。分布の仮定が不要で外れ値に頑健な点が特長であり、心理学、医学、教育など多くの分野で不可欠な統計指標として広く用いられています。
ただし、線形性の確認には不向きであり、非単調関係では解釈に注意が必要です。適切な前提条件を確認したうえで、ピアソン相関やケンドール相関と併用することにより、より堅牢で信頼性の高い解析が可能となります。

Popular Articles