5.15 ケンドールの順位相関係数

ケンドールの順位相関係数（Kendall’s rank correlation coefficient, Kendall’s τ）は、2つの変数の間の単調な関係（値の増減が一方向に進む関係）の強さを測定するためのノンパラメトリック指標（分布の形状を仮定しない相関係数）です。

ピアソンの積率相関係数（Pearson’s r）が数値そのものの線形関係を評価するのに対し、ケンドールのτは順位（rank）に基づくため、外れ値の影響を受けにくく、非線形でも単調な関係を適切に評価することができます。

ケンドールのτは、社会科学、心理学、教育学、バイオ統計学など、順位データや尺度データを扱う多くの分野で広く使用されています。

ケンドールのτの基本的な考え方

ケンドールの順位相関係数は、データの順位の一致・不一致の程度に基づいて計算されます。2つの変数 \(X\) と \(Y\) の観測値のペア \((x_i, y_i)\) が \(n\) 組あるとき、任意の2組のデータ \((x_i, y_i)\) と \((x_j, y_j)\)[\(i<j\)]について、それらの順序関係が一致しているかどうかを調べます。

順序が一致している（Concordant）：\((x_i – x_j)(y_i – y_j) > 0\)
順序が不一致（Discordant）：\((x_i – x_j)(y_i – y_j) < 0\)

これらの「一致ペア数」と「不一致ペア数」の差に基づいて相関の強さを評価します。

数式モデル

ケンドールの順位相関係数（τ）は、以下のように定義されます。

\[
\tau = \frac{C – D}{\frac{1}{2}n(n – 1)}
\]

\(C\)：一致ペア（Concordant pairs）の数
\(D\)：不一致ペア（Discordant pairs）の数
\(n\)：観測ペアの総数

この式は全ペアに対する一致と不一致の比率差を表しており、結果として \(-1 \le \tau \le 1\) の範囲を取ります。

\(\tau = 1\)：完全に一致
\(\tau = -1\)：完全に逆転
\(\tau = 0\)：独立（ランダム）

ケンドールのτの種類

ケンドールのτₐ（Tau-a）：最も基本的な定義で、同順位を考慮しません。

\[
\tau_a = \frac{C – D}{\frac{1}{2}n(n – 1)}
\]
ケンドールのτ_b（Tau-b）：同順位を考慮した修正版で、実務で最も広く用いられます。

\[
\tau_b = \frac{C – D}{\sqrt{(C + D + T_x)(C + D + T_y)}}
\]

\(T_x\)：X内の同順位ペア数、\(T_y\)：Y内の同順位ペア数。
ケンドールのτ_c（Tau-c, Stuart-Kendallのτ_c）：カテゴリ数が多い場合の補正式です。

\[
\tau_c = \frac{2(C – D)}{n^2\frac{(k – 1)}{k}}
\]

\(k\)：カテゴリ数、\(n\)：サンプルサイズ。

前提条件

データの対応関係：同一対象についてのペア観測であること。
測定尺度：順序尺度以上であること。
線形関係の仮定不要：単調関係であればよい。
外れ値の影響が小さい：順位に基づくため限定的。

ケンドールのτとスピアマンのρの違い

順位に基づく相関係数にはスピアマンのρもありますが、次のような違いがあります。

特徴	ケンドールのτ	スピアマンのρ
原理	一致・不一致ペアの割合	順位値のピアソン相関
数式	\(\tau = \frac{C – D}{\frac{1}{2}n(n-1)}\)	\(\rho = 1 – \frac{6\sum d_i^2}{n(n^2-1)}\)
外れ値耐性	高い	中程度
用途	厳密順位・小標本	大標本・傾向把握

統計的検定

帰無仮説 \(H_0\)：独立である。大標本近似では次式でZ統計量を求めます。

\[
Z = \frac{3\tau\sqrt{n(n – 1)}}{2(2n + 5)}
\]

このZ値を標準正規分布に従って検定します。小標本では正確確率法を用います。

効果量の解釈

τの絶対値	解釈
0.1以下	弱い相関
0.3前後	中程度
0.5以上	強い相関

おおよそ \(r \approx 1.5\tau\) の関係があるとされます。

実例1：テスト得点と満足度

10人の学生で \(C=38, D=7\) の場合、

\[
\tau = \frac{38 – 7}{45} = 0.689
\]

強い正の相関があり、p<0.01。

実例2：医師評価と患者満足度

\(C=25, D=10, T_x=3, T_y=2\) の場合、

\[
\tau_b = \frac{25 – 10}{\sqrt{(25+10+3)(25+10+2)}} = \frac{15}{\sqrt{38\times37}} = 0.40
\]

中程度の正の相関。

実例3：教育年数と収入水準

\[
\tau_c = \frac{2(C – D)}{n^2\frac{(k – 1)}{k}} = 0.45
\]

中程度〜強い正の関係。

注意点

同順位が多い場合はτ_bまたはτ_cを使用。
nが小さいときは正確確率法。
非単調関係ではτは不適。
外れ値が順位を変える場合に注意。
相関は因果を意味しない。

ケンドールのτとピアソンrの関係

\[
r \approx \sin\left(\frac{\pi}{2}\tau\right)
\]
または \(r \approx 1.5\tau\)

実務上の活用

心理学・教育学：評価者間一致度
社会学・経済学：地位と所得の関連
医学研究：医師評価と予後
機械学習：ランキング一致度

相関係数の信頼区間

ケンドールのτの信頼区間（confidence interval）は、ブートストラップ法（再標本化による推定）で求めるのが一般的です。解析上は、標準誤差（SE）を次のように近似して求められます。

\[
SE_\tau = \sqrt{\frac{2(2n + 5)}{9n(n – 1)}}
\]

95%信頼区間は以下で求めます。

\[
\tau \pm 1.96 \times SE_\tau
\]

この信頼区間が0を含まない場合、統計的に有意な順位相関があると判断されます。

ケンドールのτと他の順位関連統計量との関係

ケンドールのτは、他の一致度指標とも密接に関係しています。

スピアマンのρ：順位の差の二乗に基づく。τよりも値が大きくなりやすい。
ガンマ係数（Goodman-Kruskal γ）：同順位を無視したτの変形版。τ_bに近いが、同順位が多い場合に過大評価されやすい。
Somers’ D：片側的な依存関係（例：YがXに依存）を評価するτの派生版。非対称な関係に適する。

これらを相補的に用いることで、データの関係構造をより正確に理解できます。

まとめ

ケンドールの順位相関係数は、順位データや外れ値を含む実際の観測データに対して頑健であり、確率的な意味づけを持つ点で非常に有用です。とくに小標本データや、順序尺度データを扱う研究では、スピアマンのρよりも信頼性の高い指標として推奨されます。

また、τの値はそのまま効果量として解釈できるため、相関の強さを直感的に理解できる利点があります。ただし、同順位の扱い、単調関係の仮定、標本サイズに応じた検定方法などに十分留意する必要があります。

本稿で示したように、τₐ・τ_b・τ_cの区別を適切に行い、データの性質に合わせた手法選択を行うことで、より精密で再現性の高い順位相関分析が可能となります。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company