中央値検定(Median Test)は、2つの独立した群の中央値(中央値とは、データを昇順に並べたとき中央に位置する値)を比較するためのノンパラメトリック検定(母集団の分布に正規性を仮定しない検定手法)です。データが正規分布(確率密度が左右対称の釣鐘型分布)を仮定できない場合や、外れ値(他のデータと著しく異なる値)が存在する場合などに有効な方法とされています。
t検定のようなパラメトリック手法では平均値を用いて比較を行いますが、中央値検定では分布の位置の代表値として中央値を使用します。そのため、分布の非対称性や外れ値の影響を受けにくく、頑健な(ロバストな)推定が可能です。
中央値検定の仕組み
中央値検定は、最初に全体のデータ(2群をまとめたデータ)の中央値を求め、その値を基準にして各群のデータが「全体中央値より大きいか小さいか」に分類し、群ごとの比率の違いを検定します。このとき使用されるのはカイ二乗検定(\( \chi^2 \)検定)であり、実質的には「全体中央値を基準にしたクロス集計表の比率差検定」となります。
検定の目的は、2群の母集団の中央値が等しいかどうかを判断することです。帰無仮説(\( H_0 \))と対立仮説(\( H_1 \))は以下のように定義されます。
\( H_0: \) 両群の母中央値は等しい
\( H_1: \) 両群の母中央値は等しくない
つまり、帰無仮説が棄却された場合、「2つの群の中央値に統計的に有意な差がある」と結論づけることができます。
前提条件
- 独立性:比較する2つの群は互いに独立している必要があります。対応のあるデータには適しません。
- 測定尺度:データは少なくとも順序尺度である必要があります。間隔尺度・比尺度でも使用できます。
- 分布形状の仮定なし:正規分布や等分散性を仮定しません。
検定の理論的背景
中央値検定では、全体の中央値を基準にして各群のデータを「大」「小」に二分し、その比率が群によって異なるかを検定します。
2×2分割表は以下のようになります。
| 全体中央値以下 | 全体中央値より大 | 合計 | |
|---|---|---|---|
| 群1 | a | b | n₁ |
| 群2 | c | d | n₂ |
| 合計 | a+c | b+d | N |
χ²統計量は次式で求められます。
\[
\chi^2 = \sum_{i=1}^{2}\sum_{j=1}^{2} \frac{(O_{ij} – E_{ij})^2}{E_{ij}}
\]
ここで、\( O_{ij} \):観測度数、\( E_{ij} \):期待度数(独立と仮定した場合の値)です。
期待度数は以下で求められます。
\[
E_{ij} = \frac{(\text{行合計})_i \times (\text{列合計})_j}{N}
\]
自由度は \((2-1) \times (2-1) = 1\) です。\( p \)値が有意水準(通常0.05)より小さい場合、帰無仮説を棄却します。
手順
- 全観測値をまとめて全体中央値を求める。
- 各値を「全体中央値以下」「全体中央値より大」に分類する。
- 各群ごとに分類の頻度を数え、2×2表を作る。
- χ²検定を行い、p値を算出する。
- p値が有意なら、群間の中央値に差があると判断する。
数式モデル
検定統計量は次のように表されます。
\[
\chi^2 = \frac{N(ad – bc)^2}{(a+b)(c+d)(a+c)(b+d)}
\]
ここで、\( N = a + b + c + d \) です。
効果量
中央値検定ではφ係数(ファイ係数)が用いられます。
\[
\phi = \sqrt{\frac{\chi^2}{N}}
\]
- 0.1:小さい効果
- 0.3:中程度の効果
- 0.5:大きい効果
他検定との比較
| 検定法 | 使用情報 | 検出力 | 外れ値の影響 | 概要 |
|---|---|---|---|---|
| 中央値検定 | 全体中央値より大/小 | 低い | 小さい | 非常に頑健だが情報を捨てる |
| Wilcoxon順位和検定 | 全順位情報 | 高い | やや影響あり | 分布の位置全体を比較 |
実例1:サプリメント比較
全体中央値 = −2.0 kg。各群の人数は以下の通り。
| 群 | −2.0kg以下 | −2.0kgより大 | 合計 |
|---|---|---|---|
| A群 | 14 | 6 | 20 |
| B群 | 6 | 12 | 18 |
\[
\chi^2 = \frac{(20+18)(14\times12 – 6\times6)^2}{(14+6)(6+12)(14+6)(6+12)} = 6.22
\]
p = 0.013(有意)、\( \phi = \sqrt{6.22/38} = 0.405 \)
実例2:教育法比較
全体中央値 = 75点。
| 群 | 75点以下 | 75点より大 | 合計 |
|---|---|---|---|
| 従来法 | 12 | 8 | 20 |
| 新教育法 | 5 | 15 | 20 |
\( \chi^2 = 5.71, p = 0.017, \phi = 0.378 \)
実例3:治療法比較
全体中央値 = 5点。
| 群 | 5点以下 | 5点より大 | 合計 |
|---|---|---|---|
| X群 | 15 | 5 | 20 |
| Y群 | 8 | 12 | 20 |
\( \chi^2 = 4.53, p = 0.033, \phi = 0.34 \)
注意点
- 全体中央値を基準とするため、群サイズに偏りがあると影響します。
- Wilcoxon検定より検出力が低い傾向があります。
- 離散データでは中央値の扱いに注意。
- 対応のあるデータには使用できません(符号検定を使用)。
- 外れ値が多い場合は、中央値のずれに注意。
関連手法との比較
| 検定法 | 主な比較対象 | 対応の有無 | 前提条件 | 効果量指標 | 検出力 | 備考 |
|---|---|---|---|---|---|---|
| 中央値検定 | 中央値 | 独立 | 分布形状を問わない | φ | 低い | 外れ値に頑健 |
| Wilcoxon順位和検定 | 分布の位置 | 独立 | 分布形状が類似 | r | 中程度 | 検出力高い |
| 符号検定 | 中央値の差 | 対応あり | 分布形状を問わない | φ | 低い | ペアデータ用 |
| Brunner-Munzel検定 | 位置の確率的優位性 | 独立 | 分布形状が異なっても可 | δ | 高い | 頑健で一般的 |
実務的活用例
- 医療研究:新薬と対照薬の症状スコア比較
- 教育研究:教育法の違いによる学習成果比較
- 経済学:地域ごとの所得中央値比較
- 心理学:ストレススコア群間比較
まとめ
中央値検定は、2つの独立した群の中央値の差を検定するノンパラメトリック手法であり、分布の仮定に依存せず頑健な解析が可能です。ただし検出力は低いため、十分なサンプルサイズを確保するか、Wilcoxon順位和検定などの代替法と併用することが望まれます。また、p値だけでなく効果量(φ係数)を提示することで、統計的・実質的両面から解釈できます。
