統計学における仮説検定にはさまざまな方法が存在しますが、特にデータが正規分布に従うという仮定を置くことが難しい場合に用いられる代表的なノンパラメトリック手法の一つが「ウィルコクソンの順位和検定(Wilcoxon rank-sum test)」です。この検定はマン・ホイットニーU検定(Mann-Whitney U test)とも呼ばれており、二つの独立した群の分布に差があるかを検定するために用いられます。正規分布を前提とするt検定に対して、より頑健で分布に依存しない解析が可能であるため、医学研究、教育学、心理学、産業統計など幅広い分野で利用されています。本稿では、ウィルコクソンの順位和検定について、その理論的背景、数式モデル、前提条件、手順、効果量、実例、注意点まで包括的に解説します。
ウィルコクソンの順位和検定の概要
ウィルコクソンの順位和検定は、独立した二つの標本群の分布が同一であるかどうかを検定する方法です。帰無仮説は「二つの群の分布に差がない」とし、対立仮説は「二つの群の分布に差がある」となります。
この検定は、二つの独立標本に含まれるすべての観測値をまとめて順位付けし、その順位和を基に検定統計量を計算するという特徴を持ちます。これにより、母集団分布に関して正規性を仮定する必要がなく、データが順序尺度以上であれば適用可能となります。
数式モデル
二つの標本を次のように置きます。
- $ n_1 $ :群1のサンプルサイズ
- $ n_2 $ :群2のサンプルサイズ
- $ X_1, X_2, …, X_{n1} $ :群1の観測値
- $ Y_1, Y_2, …, Y_{n2} $ :群2の観測値
すべての観測値 $ n_1+n_2 $ 個を小さい順に並べ、順位を付けます。群1の順位の合計を $ R_1 $、群2の順位の合計を $ R_2 $ とします。
検定統計量 $ U $ は次のように定義されます。
$$ U_1 = n_1 n_2 + \frac{n_1(n_1+1)}{2} – R_1 $$
$$ U_2 = n_1 n_2 + \frac{n_2(n_2+1)}{2} – R_2 $$
$$ U = \min(U_1, U_2) $$
この $ U $ を用いて、二つの群が同一分布に従うかどうかを検定します。
標本サイズが十分に大きい場合、正規近似を用いることができます。その際、平均と分散は以下で与えられます。
$$ E[U] = \frac{n_1 n_2}{2} $$
$$ Var(U) = \frac{n_1 n_2 (n_1+n_2+1)}{12} $$
検定統計量 $ Z $ は次の式で計算されます。
$$ Z = \frac{U – E[U]}{\sqrt{Var(U)}} $$
この $ Z $ 値を標準正規分布に基づいて有意性を判定します。
前提条件
ウィルコクソンの順位和検定を適用する際には、以下の前提条件を満たす必要があります。
- 測定尺度が順序尺度以上であること(順序尺度・間隔尺度・比尺度で使用可能)
- 二つの群が独立していること
- 群間の分布形状が同一であること(中央値の差を比較するためには分布の形が同じである必要がある)
- 観測値は互いに独立していること
手順
- 二つの群の観測値を一つの集合にまとめる。
- すべての観測値に順位を付ける(同順位がある場合は平均順位を割り当てる)。
- 各群の順位の合計を計算する。
- 検定統計量 $ U $ を計算する。
- 標本サイズが小さい場合は正確確率を、大きい場合は正規近似によるp値を求める。
- 有意水準と比較して帰無仮説を棄却するかどうかを判断する。
効果量
ノンパラメトリック手法における効果量は、t検定のようにCohen’s dを直接利用することはできませんが、次のような方法が用いられます。
- 相関係数に基づく効果量: $ r = \frac{Z}{\sqrt{N}} $ (ここで $ Z $ は検定統計量、$ N=n_1+n_2 $ は総サンプルサイズ)
- Cliff’s delta:二つの群の値を比較したとき、一方の群の値が他方より大きい確率と小さい確率の差を表す指標(-1〜1の範囲を取り、0に近いほど差が小さいことを意味)
実例
-
実例1:医学研究における薬剤効果の比較
ある薬剤の投与群(n=15)とプラセボ群(n=15)の血圧低下量を比較する場合、データが正規分布に従わないと判断された場合は、独立2標本t検定ではなくウィルコクソンの順位和検定を用いるのが妥当です。この結果により、薬剤の効果が統計的に有意かどうかを評価できます。 -
実例2:教育分野での成績比較
二つの異なる教育プログラムを受けた学生群のテストスコアを比較する際、データに外れ値や歪度が大きく含まれている場合、ノンパラメトリックなウィルコクソン順位和検定が有効です。この場合、中央値の差に注目することになります。 -
実例3:産業分野での製品比較
二つの工場で製造された製品の品質スコアを比較する際、評価が順位付けによって与えられる場合があります。このような順序尺度データに対しては、平均値の差を比較するt検定ではなく、ウィルコクソンの順位和検定を適用することが推奨されます。
注意点
- ウィルコクソンの順位和検定は「中央値の差」を直接検定しているわけではなく、「二つの分布全体に差があるか」を検定しています。中央値の差を意味すると解釈する場合は、分布形状が同一であることが前提となります。
- 群間の分布の形が異なる場合、この検定の結果は中央値の差ではなく分布形状の違いを反映する可能性があります。
- 小標本の場合は正規近似ではなく正確確率を利用することが望ましいです。
- 効果量の解釈には注意が必要で、単純に平均差や中央値差と対応するわけではありません。
まとめ
ウィルコクソンの順位和検定は、二つの独立群の分布差を検討する際に有効なノンパラメトリック検定です。正規性が満たされない場合や順序尺度データしか得られない場合に特に有用であり、実務や研究において頻繁に利用されます。t検定との違いや効果量の算出法、分布形状の前提を正しく理解して適用することが重要です。
