ウィルコクソンの符号順位検定(Wilcoxon signed-rank test)は、対応のある二群の差を検討するためのノンパラメトリック検定(母集団分布に特定の仮定を必要としない検定)です。この手法は、対応のあるt検定のノンパラメトリック版と位置づけられ、特にデータが正規分布に従わない場合や、外れ値の影響を強く受ける可能性がある場合に有効です。順位に基づく検定であるため、分布形に対して頑健性を持ち、順序尺度や間隔尺度のデータに適用できます。本稿では、この検定の理論的背景、数式モデル、手順、効果量、実例、注意点などを詳細に解説します。
ウィルコクソンの符号順位検定の位置づけ
統計学における二群比較には大きく二つの状況が存在します。独立な二群を比較する場合と、同一対象に対して二回の測定を行うなど対応のある二群を比較する場合です。独立二群に対してはマン・ホイットニーU検定がよく用いられますが、対応のある二群に対してはウィルコクソンの符号順位検定が適用されます。これは、同じ被験者を用いて処置前後を比較する臨床試験や、同一試料に異なる処理を施した実験などに頻繁に利用されます。
前提条件
- データは対応のある観測値ペアから成ること(例:同一患者の処置前後の測定値)。
- 測定尺度は順序尺度以上であること。すなわち、大小関係が明確である必要がある。
- 各ペア間の差は独立していること。
- 差の分布が対称に近いこと。正規分布である必要はないが、分布が大きく偏る場合には解釈に注意が必要となる。
検定の基本的な考え方
ウィルコクソンの符号順位検定は、各観測ペアの差を計算し、その差の符号(プラスかマイナスか)と差の絶対値の大きさに基づいて順位をつける方法です。
- $ H_0 $:中央値の差がゼロである(処置の効果がない)
- $ H_1 $:中央値の差がゼロではない、または正方向(あるいは負方向)に差がある
数式モデル
観測値ペアを $(X_i, Y_i)$ とし、その差を $ d_i = Y_i – X_i $ と定義します。ここで、ゼロ差 $ d_i = 0 $ のデータは除外します。次に、差の絶対値 $ |d_i| $ に順位を割り当てます。このとき同順位が発生した場合は平均順位を付与します。
順位を付けた後、符号に基づいて順位をプラス群とマイナス群に分け、それぞれの順位和を計算します。
プラス群の順位和を $ W^+ $、マイナス群の順位和を $ W^- $ とすると、検定統計量 $ T $ は次のように定義されます。
$ T = \min(W^+, W^-) $
帰無仮説が正しい場合、この統計量の分布は既知であり、小標本では正確確率表を用い、大標本では正規近似によってp値を算出します。
大標本近似における期待値と分散は次の通りです。
$ E(W^+) = \dfrac{n(n+1)}{4} $
$ \mathrm{Var}(W^+) = \dfrac{n(n+1)(2n+1)}{24} $
標準化された統計量 $ Z $ は次の式で表されます。
$ Z = \dfrac{W^+ – E(W^+)}{\sqrt{\mathrm{Var}(W^+)}} $
この $ Z $ を標準正規分布に基づいて評価します。
手順
- 対応のある観測値ペアの差 $ d_i $ を計算する。
- $ d_i = 0 $ のペアを除外する。
- 差の絶対値 $ |d_i| $ を計算し、順位を割り当てる。同順位は平均順位とする。
- 元の符号に従って順位をプラス群、マイナス群に分ける。
- プラス群の順位和 $ W^+ $、マイナス群の順位和 $ W^- $ を計算する。
- 検定統計量 $ T = \min(W^+, W^-) $ を求める。
- 標本サイズが小さい場合は正確分布に基づくp値を計算する。標本サイズが大きい場合は正規近似に基づいてp値を算出する。
- 有意水準と比較して帰無仮説を棄却するかどうかを判断する。
効果量
ウィルコクソンの符号順位検定における効果量は、一般に次のように算出されます。
$ r = \dfrac{Z}{\sqrt{N}} $
ここで、$ Z $ は標準化された検定統計量、$ N $ はゼロ差を除いたサンプルサイズです。
この効果量 $ r $ は相関係数と同様に解釈でき、小(0.1)、中(0.3)、大(0.5)程度の基準が用いられます。また、Cliff’s delta などの順位に基づく効果量を補助的に利用することもあります。
実例
- 実例1:薬剤効果の前後比較 — 10人の患者の投与前後の血圧を比較し、分布が歪んでいたため、対応のあるt検定ではなくウィルコクソンの符号順位検定を使用。
- 実例2:教育介入効果の検討 — 生徒15人の前後テストスコアを比較し、非正規分布のためウィルコクソンの符号順位検定を選択。
- 実例3:食品嗜好調査 — 被験者に食品AとBを比較させ、順序尺度データに基づきウィルコクソンの符号順位検定を使用。
注意点
- 差の分布が大きく非対称である場合には、符号検定の方が適切な場合がある。
- サンプルサイズが小さい場合は正規近似を用いず、正確確率を計算する必要がある。
- ゼロ差が多く含まれる場合、検定力が低下する可能性がある。
- 効果量の解釈はデータの性質や研究目的と合わせて慎重に行う必要がある。
まとめ
ウィルコクソンの符号順位検定は、対応のあるデータの比較において広く用いられるノンパラメトリック検定であり、特に正規性が満たされない場合に強力な手法となります。対応のあるt検定と比較して検出力は若干劣る場合がありますが、頑健性の高さや適用範囲の広さから、医学、心理学、教育学、社会科学など幅広い分野で活用されています。前提条件を確認した上で、効果量の算出も併せて行うことにより、結果の解釈をより明確にすることが可能です。
