統計学において、カテゴリカルデータ(質的データ)の解析は極めて重要です。特に、2×2分割表における2つのカテゴリー間の独立性を検討する場面は、医学、社会学、心理学、教育学など多くの分野で頻繁に発生します。このとき、最も広く知られている検定法はカイ二乗検定ですが、標本サイズが小さい場合や期待度数が5未満のセルが存在する場合には、カイ二乗検定は正確性を欠く可能性があります。この問題を解決する方法として、フィッシャーの正確検定(Fisher’s exact test)が存在します。
フィッシャーの正確検定は、1930年代にロナルド・フィッシャー(Ronald A. Fisher)が考案した方法であり、小標本における独立性の検定に適したものです。分割表のデータを仮定分布ではなく、実際の組み合わせ数に基づいて評価するため「正確検定」と呼ばれます。つまり、大標本理論に依存せず、帰無仮説が真であるときに観測される確率を正確に計算するという特徴を持ちます。
以下では、フィッシャーの正確検定の基本的な考え方、数式モデル、前提条件、計算方法、さまざまなバリエーション、効果量の扱い、実際の応用例や注意点について詳細に解説します。
フィッシャーの正確検定の概要
フィッシャーの正確検定は、主に2×2分割表に適用されます。分割表とは、行と列にカテゴリーを設定し、観測度数を配置した表です。例えば、治療群と対照群における改善・非改善の人数を整理すると2×2分割表が得られます。
- 帰無仮説:行と列の変数は独立である
- 対立仮説:行と列の変数は独立ではない
フィッシャーの正確検定は、帰無仮説のもとで、観測された分割表以上に「極端な」結果が得られる確率を超幾何分布(固定された周辺度数の下で得られる組み合わせ分布)を用いて求めます。
数式モデル
| 列1 | 列2 | 合計 | |
|---|---|---|---|
| 行1 | a | b | a+b |
| 行2 | c | d | c+d |
| 合計 | a+c | b+d | n |
- $a, b, c, d$:観測度数
- $n = a+b+c+d$:全体のサンプルサイズ
帰無仮説の下でセル$a$の値は超幾何分布に従います。
- 超幾何分布の確率質量関数
- データはカテゴリカルであり、2つのカテゴリー変数の独立性を検討する
- 分割表の周辺度数(行合計・列合計)は固定されている
- 観測値は独立な試行から得られている
- 主に2×2表に用いられるが、拡張も可能
- 2×2分割表を作成し、観測度数を整理する
- 行合計と列合計を固定し、セルaの確率分布を超幾何分布に基づいて算出する
- 観測された表に対応する確率を計算する
- 片側検定では観測値以上に偏った確率を合計、両側検定では極端な表の確率を合計
- 得られたp値を有意水準と比較し、帰無仮説を棄却するか判断する
- オッズ比(Odds ratio):$$ OR = \frac{a \cdot d}{b \cdot c} $$
- リスク比(Risk ratio):$$ RR = \frac{a/(a+b)}{c/(c+d)} $$
- 効果量指標 φ(ファイ係数):$$ \phi = \frac{\chi^2}{n} $$
$$ P(A = a) = \frac{{\binom{a+b}{a} \binom{c+d}{c}}}{\binom{n}{a+c}} $$
前提条件
手順
効果量
実例
実例1
治療群10人のうち改善8人、対照群10人のうち改善3人。
| 改善 | 非改善 | 合計 | |
|---|---|---|---|
| 治療群 | 8 | 2 | 10 |
| 対照群 | 3 | 7 | 10 |
| 合計 | 11 | 9 | 20 |
期待度数の一部は5未満であり、カイ二乗検定の適用は不適切。フィッシャーの正確検定を用いて、有意性を判定しオッズ比で効果を定量化可能。
実例2
教育現場で新しい指導法と従来の指導法を比較。各群20人程度の小規模サンプルでは、フィッシャーの正確検定を使用することで誤結論を回避できる。
実例3
疫学研究で感染症とリスク因子(喫煙習慣)の関連を評価。症例群15人、対照群15人など小規模サンプルにおいて、フィッシャーの正確検定が有効に機能する。
まとめ
フィッシャーの正確検定は、小標本においてカテゴリカルデータの独立性を正確に評価できる手法です。カイ二乗検定が信頼できない状況でも正確な確率を算出可能であり、オッズ比やリスク比などの効果量と併せて提示することで、実際の関連の大きさを理解できます。医学、教育、社会科学など幅広い分野で応用され、特にサンプル数が限られた研究で重要な役割を果たします。
