Brunner-Munzel検定(ブルンネル=ムンツェル検定)は、2つの独立した群の分布の位置(中央値や代表値)の差を比較するためのノンパラメトリック検定(母集団の分布に正規性を仮定しない検定)です。この検定は、Wilcoxon順位和検定(Mann-Whitney U検定)の一般化として1990年代後半に提案された方法であり、特に分布の形状や分散が異なる場合でも有効に機能する点に特徴があります。すなわち、「分散が等しい」という前提条件を必要とせず、非等分散かつ非対称な分布に対しても妥当な検定結果を提供できる点で優れています。
背景と理論的動機
Wilcoxon順位和検定(Mann-Whitney U検定)は、ノンパラメトリック検定として広く用いられていますが、重要な前提条件として「両群の分布形が同じである(位置のみに差がある)」ことが要求されます。つまり、2つの群の分布が同じ形状を持ち、中央値のみが異なる場合に最も適している検定です。
しかし、実際のデータでは、分布の形状(歪度や尖度)や分散が異なることが多く、そのような場合にはWilcoxon検定の有意確率(p値)が過小評価され、誤った結論(第一種の過誤:誤って帰無仮説を棄却すること)につながるリスクがあります。
この問題を解決するために、BrunnerとMunzel(2000)は、分布形や分散が異なる場合にも有効な検定としてBrunner-Munzel検定を提案しました。この検定は、確率的優位性(probabilistic superiority)に基づいて群間の位置の差を評価します。
検定の目的と考え方
Brunner-Munzel検定の目的は、2つの独立群 \( X \) と \( Y \) の間で、ある群が他方より大きい値をとる確率が0.5(同等)であるかを評価することです。より形式的には、次のように表現されます。
$$H_0: P(X < Y) + \frac{1}{2}P(X = Y) = 0.5 $$
$$H_1: P(X < Y) + \frac{1}{2}P(X = Y) \neq 0.5 $$
ここで、
- \( P(X < Y) \):群Xの値が群Yの値より小さい確率
- \( P(X = Y) \):群Xと群Yの値が等しい確率
この確率量は、確率的優位性(probabilistic index)とも呼ばれます。直感的には、2つの群から1つずつ観測値を無作為に選んだとき、どちらの群がより大きい値をとるかの確率を表しています。この値が0.5であれば両群は同程度、0.5を超えればY群が優勢、0.5未満であればX群が優勢と判断されます。
前提条件
-
独立性
2群の観測値は互いに独立している必要があります。すなわち、対応のあるデータ(同一被験者の前後比較など)には使用できません。 -
連続的な尺度
データは順序尺度以上(順位が意味を持つデータ)である必要があります。間隔尺度や比尺度であれば問題ありません。 -
分布形・分散の仮定不要
正規性や等分散性は仮定されません。分布形状が異なる場合でも適用可能です。 -
サンプルサイズ
厳密な漸近近似に基づくため、各群のサンプルサイズは概ね10以上が望ましいです。サンプルサイズが小さい場合は、Brunner-Munzel検定の修正版(近似t分布による補正)を使用します。
数式モデル
Brunner-Munzel検定は、順位に基づいて確率的優位性を推定し、その差が0.5から有意に離れているかどうかを評価します。
群Xの標本サイズを \( n_1 \)、群Yの標本サイズを \( n_2 \) とします。観測値をそれぞれ \( X_1, X_2, …, X_{n_1} \) および \( Y_1, Y_2, …, Y_{n_2} \) とします。全データ \( X \cup Y \) に順位を付与し、各観測値の順位を \( R_i \) とします。
Brunner-Munzel統計量は以下のように表されます。
$$
W = \frac{1}{n_1} \sum_{i=1}^{n_1} R_i – \frac{n_1 + 1}{2}
$$
これを標準化し、検定統計量 \( T_{BM} \) は次のように計算されます。
$$
T_{BM} = \frac{\hat{p} – 0.5}{\sqrt{\hat{V}}}
$$
ここで、
- \( \hat{p} \):確率的優位性の推定値
- \( \hat{V} \):その分散の推定値
より厳密には、次のように表されます。
$$
\hat{p} = \frac{1}{n_1 n_2} \sum_{i=1}^{n_1} \sum_{j=1}^{n_2} I(X_i < Y_j) + \frac{1}{2}I(X_i = Y_j)
$$
ここで、\( I(\cdot) \) は指示関数(条件が真のとき1、偽のとき0をとる関数)です。この値が0.5からどの程度離れているかをt分布または正規分布に基づいて検定します。
帰無仮説と対立仮説
- 帰無仮説 \( H_0 \):2群の確率的優位性が等しい(\( P(X < Y) = 0.5 \))
- 対立仮説 \( H_1 \):確率的優位性が等しくない(\( P(X < Y) \neq 0.5 \))
検定統計量の近似分布
Brunner-Munzel統計量 \( T_{BM} \) は、自由度 \( \nu \) のt分布に従う近似が成り立ちます。
$$
T_{BM} \sim t_{\nu}
$$
自由度 \( \nu \) は次のように算出されます。
$$
\nu = \frac{(\hat{V}_1 + \hat{V}_2)^2}{\frac{\hat{V}_1^2}{n_1 – 1} + \frac{\hat{V}_2^2}{n_2 – 1}}
$$
効果量
- 確率的優位性:
$$
p = P(X < Y) + \frac{1}{2}P(X = Y) $$ - Cliffのδ(デルタ):
$$
\delta = 2p – 1
$$
δの解釈基準:
- 0.147未満:小さい効果
- 0.33未満:中程度の効果
- 0.474未満:大きい効果
- 0.474以上:非常に大きい効果
Brunner-Munzel検定とWilcoxon検定の違い
| 特徴 | Wilcoxon順位和検定 | Brunner-Munzel検定 |
|---|---|---|
| 分布形状の仮定 | 等しい必要あり | 不要 |
| 分散の仮定 | 等分散を仮定 | 不要 |
| 小標本への適用 | 正確検定可 | t近似で対応 |
| 効果量 | r, Cliff’s δ | 確率的優位性, δ |
| 頑健性 | 中程度 | 高い |
| 推奨場面 | 分布形が類似 | 分布や分散が異なる場合 |
実例
ここでは、3つの実例を提示します。いずれも「分布の形や分散が異なる」ケースであり、Brunner-Munzel検定がWilcoxon検定よりも適切な選択となる場面です。
実例1:薬剤効果のばらつきが異なる場合
ある医薬品の血圧降下作用を2群で比較しました。薬剤A群(n=20)は平均−10 mmHg、分散5。薬剤B群(n=18)は平均−12 mmHgですが分散が大きく、25とします。
両群とも非正規分布であり、分散も明らかに異なるため、Brunner-Munzel検定を用います。結果として、p=0.042であり、薬剤B群の方が有意に血圧低下効果が大きいと判断されました。確率的優位性 ( p = 0.63 )、Cliffのδ = 0.26 で、中程度の効果と評価されます。
Wilcoxon検定でもp=0.06と近い結果ですが、有意には至らず、分散の不均一性を考慮するBrunner-Munzel検定の方が信頼できると判断されます。
実例2:教育プログラムによるスコア変化の比較
2種類の学習プログラム(AとB)を受講した学生のスコア上昇量(前後差)を比較しました。A群(n=25)は平均上昇量=5点、分散=9、B群(n=25)は平均上昇量=7点、分散=36と、B群の方がばらつきが大きいデータです。
Shapiro-Wilk検定で正規性が棄却され、Levene検定で等分散性も棄却されました。そのためBrunner-Munzel検定を実施すると、p=0.018。確率的優位性p=0.68、Cliffのδ=0.36と、中〜大程度の効果が確認されました。Wilcoxon検定ではp=0.07で有意差が出ませんでした。
この結果から、分散が異なるデータではWilcoxonよりBrunner-Munzel検定の方が適切な判定を与えることがわかります。
実例3:収入分布の比較(社会調査)
社会調査において、都市部と地方部の年収分布を比較したとします。都市部(n=100)は平均600万円、分散90000、地方部(n=120)は平均550万円、分散250000であり、地方部は外れ値を多く含みます。年収データは右に長い歪み(右裾の長い分布)を示すため、正規分布ではありません。
Brunner-Munzel検定を用いると、p=0.029、確率的優位性p=0.58、Cliffのδ=0.16。小さいながらも統計的に有意な差が確認され、都市部の方が高収入傾向であると解釈されます。
注意点
- サンプルサイズが非常に小さい場合(n < 10)
自由度の推定が不安定になり、p値の信頼性が低下します。この場合は置換法(Permutation Test)を利用する方が良い場合があります。 - 対応のあるデータには不適
Brunner-Munzel検定は独立2群の比較に限定されます。対応のある場合には、符号検定やWilcoxonの対応あり版(符号付き順位検定)を使用します。 - 大きな外れ値がある場合
Brunner-Munzel検定はWilcoxonよりも外れ値に頑健ですが、極端な外れ値が多数ある場合には中央値検定を検討する方が望ましいです。 - 分布全体の差を検出するわけではない
この検定は主に「分布の位置」に焦点を当てます。分散や形状の違いそのものを検定するわけではありません。 - 正確検定ではない
Brunner-Munzel検定は漸近理論に基づく近似法であり、非常に小さいサンプルでは誤差が大きくなる可能性があります。
実務的な活用例
Brunner-Munzel検定は、医学・教育・心理・経済・スポーツ科学など幅広い分野で利用されています。特に、Wilcoxon検定の適用が困難な「分散の異なる独立2群」データにおいて有効です。
- 医学:薬剤間の副作用スコア比較
- 教育:異なる教材の効果測定(分散が異なるテストスコア)
- 経済:収入や支出など分布が偏るデータの地域比較
- 心理学:得点分布が歪な尺度データの群間比較
- スポーツ科学:トレーニング介入前後のパフォーマンス差(群間比較)
Brunner-Munzel検定とその他手法の選択基準
| 条件 | 適用推奨検定 |
|---|---|
| 正規分布かつ等分散 | t検定(StudentまたはWelch) |
| 非正規分布かつ等分散 | Wilcoxon順位和検定 |
| 非正規分布かつ非等分散 | Brunner-Munzel検定 |
| 順序尺度のみ | Brunner-Munzelまたは中央値検定 |
| 対応のあるデータ | Wilcoxon符号付き順位検定 |
まとめ
Brunner-Munzel検定は、Wilcoxon順位和検定の一般化として開発された頑健なノンパラメトリック手法であり、分散や分布形状が異なる2群を比較する際に非常に有効な方法です。確率的優位性という直感的な効果量を算出できる点も実務上有用であり、正規性や等分散性が満たされない現実のデータ解析において、信頼性の高い推論を可能にします。
