2026年 2月 25日 水曜日

Top 5 This Week

Related Posts

5.15 ケンドールの順位相関係数


ケンドールの順位相関係数(Kendall’s rank correlation coefficient, Kendall’s τ)は、2つの変数の間の単調な関係(値の増減が一方向に進む関係)の強さを測定するためのノンパラメトリック指標(分布の形状を仮定しない相関係数)です。

ピアソンの積率相関係数(Pearson’s r)が数値そのものの線形関係を評価するのに対し、ケンドールのτは順位(rank)に基づくため、外れ値の影響を受けにくく、非線形でも単調な関係を適切に評価することができます。

ケンドールのτは、社会科学、心理学、教育学、バイオ統計学など、順位データや尺度データを扱う多くの分野で広く使用されています。

ケンドールのτの基本的な考え方

ケンドールの順位相関係数は、データの順位の一致・不一致の程度に基づいて計算されます。2つの変数 \(X\) と \(Y\) の観測値のペア \((x_i, y_i)\) が \(n\) 組あるとき、任意の2組のデータ \((x_i, y_i)\) と \((x_j, y_j)\)[\(i<j\)]について、それらの順序関係が一致しているかどうかを調べます。

  • 順序が一致している(Concordant):\((x_i – x_j)(y_i – y_j) > 0\)
  • 順序が不一致(Discordant):\((x_i – x_j)(y_i – y_j) < 0\)

これらの「一致ペア数」と「不一致ペア数」の差に基づいて相関の強さを評価します。

数式モデル

ケンドールの順位相関係数(τ)は、以下のように定義されます。

\[
\tau = \frac{C – D}{\frac{1}{2}n(n – 1)}
\]

  • \(C\):一致ペア(Concordant pairs)の数
  • \(D\):不一致ペア(Discordant pairs)の数
  • \(n\):観測ペアの総数

この式は全ペアに対する一致と不一致の比率差を表しており、結果として \(-1 \le \tau \le 1\) の範囲を取ります。

  • \(\tau = 1\):完全に一致
  • \(\tau = -1\):完全に逆転
  • \(\tau = 0\):独立(ランダム)

ケンドールのτの種類

  1. ケンドールのτₐ(Tau-a):最も基本的な定義で、同順位を考慮しません。

    \[
    \tau_a = \frac{C – D}{\frac{1}{2}n(n – 1)}
    \]

  2. ケンドールのτ_b(Tau-b):同順位を考慮した修正版で、実務で最も広く用いられます。

    \[
    \tau_b = \frac{C – D}{\sqrt{(C + D + T_x)(C + D + T_y)}}
    \]

    \(T_x\):X内の同順位ペア数、\(T_y\):Y内の同順位ペア数。

  3. ケンドールのτ_c(Tau-c, Stuart-Kendallのτ_c):カテゴリ数が多い場合の補正式です。

    \[
    \tau_c = \frac{2(C – D)}{n^2\frac{(k – 1)}{k}}
    \]

    \(k\):カテゴリ数、\(n\):サンプルサイズ。

前提条件

  • データの対応関係:同一対象についてのペア観測であること。
  • 測定尺度:順序尺度以上であること。
  • 線形関係の仮定不要:単調関係であればよい。
  • 外れ値の影響が小さい:順位に基づくため限定的。

ケンドールのτとスピアマンのρの違い

順位に基づく相関係数にはスピアマンのρもありますが、次のような違いがあります。

特徴 ケンドールのτ スピアマンのρ
原理 一致・不一致ペアの割合 順位値のピアソン相関
数式 \(\tau = \frac{C – D}{\frac{1}{2}n(n-1)}\) \(\rho = 1 – \frac{6\sum d_i^2}{n(n^2-1)}\)
外れ値耐性 高い 中程度
用途 厳密順位・小標本 大標本・傾向把握

統計的検定

帰無仮説 \(H_0\):独立である。大標本近似では次式でZ統計量を求めます。

\[
Z = \frac{3\tau\sqrt{n(n – 1)}}{2(2n + 5)}
\]

このZ値を標準正規分布に従って検定します。小標本では正確確率法を用います。

効果量の解釈

τの絶対値 解釈
0.1以下 弱い相関
0.3前後 中程度
0.5以上 強い相関

おおよそ \(r \approx 1.5\tau\) の関係があるとされます。

実例1:テスト得点と満足度

10人の学生で \(C=38, D=7\) の場合、

\[
\tau = \frac{38 – 7}{45} = 0.689
\]

強い正の相関があり、p<0.01。

実例2:医師評価と患者満足度

\(C=25, D=10, T_x=3, T_y=2\) の場合、

\[
\tau_b = \frac{25 – 10}{\sqrt{(25+10+3)(25+10+2)}} = \frac{15}{\sqrt{38\times37}} = 0.40
\]

中程度の正の相関。

実例3:教育年数と収入水準

\[
\tau_c = \frac{2(C – D)}{n^2\frac{(k – 1)}{k}} = 0.45
\]

中程度〜強い正の関係。

注意点

  • 同順位が多い場合はτ_bまたはτ_cを使用。
  • nが小さいときは正確確率法。
  • 非単調関係ではτは不適。
  • 外れ値が順位を変える場合に注意。
  • 相関は因果を意味しない。

ケンドールのτとピアソンrの関係

\[
r \approx \sin\left(\frac{\pi}{2}\tau\right)
\]
または \(r \approx 1.5\tau\)

実務上の活用

  • 心理学・教育学:評価者間一致度
  • 社会学・経済学:地位と所得の関連
  • 医学研究:医師評価と予後
  • 機械学習:ランキング一致度

相関係数の信頼区間

ケンドールのτの信頼区間(confidence interval)は、ブートストラップ法(再標本化による推定)で求めるのが一般的です。解析上は、標準誤差(SE)を次のように近似して求められます。

\[
SE_\tau = \sqrt{\frac{2(2n + 5)}{9n(n – 1)}}
\]

95%信頼区間は以下で求めます。

\[
\tau \pm 1.96 \times SE_\tau
\]

この信頼区間が0を含まない場合、統計的に有意な順位相関があると判断されます。

ケンドールのτと他の順位関連統計量との関係

ケンドールのτは、他の一致度指標とも密接に関係しています。

  • スピアマンのρ:順位の差の二乗に基づく。τよりも値が大きくなりやすい。
  • ガンマ係数(Goodman-Kruskal γ):同順位を無視したτの変形版。τ_bに近いが、同順位が多い場合に過大評価されやすい。
  • Somers’ D:片側的な依存関係(例:YがXに依存)を評価するτの派生版。非対称な関係に適する。

これらを相補的に用いることで、データの関係構造をより正確に理解できます。

まとめ

ケンドールの順位相関係数は、順位データや外れ値を含む実際の観測データに対して頑健であり、確率的な意味づけを持つ点で非常に有用です。とくに小標本データや、順序尺度データを扱う研究では、スピアマンのρよりも信頼性の高い指標として推奨されます。

また、τの値はそのまま効果量として解釈できるため、相関の強さを直感的に理解できる利点があります。ただし、同順位の扱い、単調関係の仮定、標本サイズに応じた検定方法などに十分留意する必要があります。

本稿で示したように、τₐ・τ_b・τ_cの区別を適切に行い、データの性質に合わせた手法選択を行うことで、より精密で再現性の高い順位相関分析が可能となります。

Popular Articles