Top 5 This Week

Related Posts

2.4 スピアマンの順位相関係数とは

- 本サイト運営者のサービスの紹介 -


スピアマンの順位相関係数とは

前項まで解説したピアソンの積率相関係数は、2つの連続型変数間の「直線的な関係」を評価する指標であり、データが正規分布に従うこと(パラメトリックな仮定)を前提としています。しかし、実際のデータ分析においては、データに極端な外れ値が含まれている場合や、アンケートの回答(5段階評価など)のような順序尺度(Ordinal Scale)のデータを扱う場面が頻繁に発生します。このような場合、ピアソンの相関係数を適用すると、分析結果が大きく歪む危険性があります。

こうした制約を克服するために用いられるのが、「スピアマンの順位相関係数(Spearman’s rank correlation coefficient)」です。この手法は、データの具体的な数値そのものではなく、数値の「順位(Rank)」に変換した上で相関を計算するノンパラメトリック(母集団の分布を仮定しない)なアプローチをとります。

数理的定義と計算式

スピアマンの順位相関係数(通常 $\rho$ または $r_s$ で表されます)の数学的な実態は、順位データに対して適用されたピアソンの積率相関係数に他なりません。各変数 $X$ および $Y$ のデータを、昇順または降順に順位付けし、その順位の値を新しい変数として相関を計算します。

サンプルのサイズを $n$ とし、各データペアの順位の差を $d_i$ と定義します。データの中に同順位(タイ:Tie)が存在しない、あるいはごくわずかである場合、スピアマンの順位相関係数 $\rho$ は以下の簡略化された公式を用いて算出されます。

$$
\rho = 1 – \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 – 1)}
$$

この式からわかるように、すべてのデータペアにおいて $X$ と $Y$ の順位が完全に一致する場合、すべての $i$ において順位の差 $d_i = 0$ となり、$\rho = 1$(完全な正の順位相関)となります。逆に、順位が完全に逆転している場合は $\rho = -1$ となります。ピアソンの相関係数と同様に、値の範囲は $-1 \leq \rho \leq 1$ をとります。

順位変換がもたらす効果と単調性の評価

ピアソンの相関係数が「線形性(直線関係)」を評価するのに対し、スピアマンの順位相関係数は「単調性(Monotonicity)」を評価します。単調性とは、変数 $X$ が増加したときに、変数 $Y$ が一定の割合でなくても常に増加し続ける(あるいは減少し続ける)関係のことです。

例えば、指数関数的に増加する2つの変数の散布図を描いた場合、データポイントは曲線を描くため、ピアソンの相関係数は $1$ より小さくなります。しかし、データを順位に変換して散布図を再描画すると、極端な数値の増分が相殺されて間隔が均等化され、プロットは直線状に並びます。このとき、単調増加の関係が完全に保たれていれば、スピアマンの順位相関係数は $\rho = 1$ と算出されます。このように、順位変換は非線形な単調関係を線形関係へと正規化する働きを持ちます。

順位変換による非線形データから直線的関係への正規化メカニズム

(図1. 順位変換による非線形データから直線的関係への正規化メカニズム)

手法の比較と使い分けの基準

データセットの特性に応じて適切な相関係数を選択するため、ピアソンとスピアマンの特性を以下の表に整理します。

比較項目 ピアソンの積率相関係数 ($r$) スピアマンの順位相関係数 ($\rho$)
評価する関係性 線形関係(直線的な連動) 単調関係(順位の連動)
適したデータの尺度 間隔尺度、比例尺度(連続値) 順序尺度、間隔尺度、比例尺度
外れ値への耐性(頑健性) 非常に弱い(外れ値に大きく影響される) 強い(外れ値の影響を順位化で吸収できる)
前提となる確率分布 二変量正規分布(パラメトリック) 特になし(ノンパラメトリック)

【実務事例】外れ値を含むデータおよび順序データの分析

スピアマンの順位相関係数の特性が実務上の課題解決にどのように寄与するか、具体的な事例を用いて解説します。

背景
あるSaaSプロバイダーにおいて、サービスの「月間利用時間(分)」と、四半期ごとに実施している「顧客満足度アンケートのスコア(1:非常に不満 〜 5:非常に満足 の5段階評価)」の関係性を分析するプロジェクトが立ち上がりました。目的は、利用時間が長い顧客ほど満足度が高いという仮説を検証し、カスタマーサクセス部門の介入基準を策定することです。

分析アプローチ
抽出された1万件のデータセットには、2つの大きな統計的課題が存在していました。第一に、顧客満足度スコアは「順序尺度」であり、スコア「4」と「5」の差が、「1」と「2」の差と等間隔であるという数学的保証がありません。第二に、月間利用時間には一部のヘビーユーザーによる極端な外れ値(平均的な利用者の数十倍の時間)が含まれており、分布が右に大きく歪んでいました(対数正規分布に近い形状)。

このような条件下でピアソンの積率相関係数を計算すると、少数のヘビーユーザーの数値に計算が引っ張られ、実態とは乖離した結果が出力されます。そこで、外れ値に頑健であり、かつ順序尺度の扱いに適したスピアマンの順位相関係数を採用し、全データを順位データに変換した上で相関を評価しました。

解釈とアクション
分析の結果、スピアマンの順位相関係数は $\rho = 0.65$ となり、統計的に有意な正の単調関係が確認されました。これは「利用時間の絶対値がどれだけ極端であるかにかかわらず、全体の中で利用時間の順位が上位の顧客群は、満足度の順位も総じて高い傾向にある」ことを客観的に示しています。

もしこの分析にピアソンの相関係数を用いていた場合、外れ値の影響で相関が過小評価または過大評価され、誤った顧客セグメンテーションが行われていた可能性があります。この堅牢な分析結果に基づき、カスタマーサクセス部門は利用時間の順位(パーセンタイル値)をベースにした新たな顧客フォローアップの閾値を設定し、解約率(チャーンレート)の低減に向けた施策を実行しました。

外れ値を含む順序データの生データと順位変換後の相関評価の比較

(図2. 外れ値を含む順序データの生データと順位変換後の相関評価の比較)

Popular Articles