t検定は統計学における最も基本的かつ重要な手法の一つであり、主に平均値の差を検定するために用いられます。心理学、教育学、医学、社会学、経済学、工学など幅広い分野で利用され、特に実験や臨床研究において頻繁に登場します。t検定の理論的基盤はスチューデントのt分布にあり、これは標本サイズが小さく母分散が未知である場合にも適用可能な柔軟な手法です。標準正規分布と比較して裾が厚い分布形を持ち、自由度が大きくなると正規分布に近づく性質を有しています。
t検定は大きく次の三種類に分類されます。
- 1標本t検定(ある集団の平均が既知の理論値や基準値と等しいかを検定する方法)
- 2標本t検定(独立した二つの集団の平均の差を検定する方法で、分散が等しいと仮定するStudentのt検定と、分散が等しいと仮定しないWelchのt検定に細分化される)
- 対応のあるt検定(同一被験者における前後比較やペアデータを扱う方法)
これらの手法はそれぞれ異なる状況で適用され、適用条件を満たさない場合は結果の解釈に誤りを招く可能性があるため、前提条件を常に確認する必要があります。さらに、統計的有意性の有無だけではなく、効果量(差の大きさを示す指標)を算出し、研究の実質的意義を把握することが推奨されます。効果量の代表例にはCohen’s dやHedges’ gがあります。
t分布とt統計量
t分布は、標本平均の分布を基にした確率分布であり、母分散が未知の場合に利用されます。t統計量は次のように定義されます。
$$ t = \frac{\bar{X} – \mu_0}{s/\sqrt{n}} $$
- $ \bar{X} $ :標本平均
- $ \mu_0 $ :帰無仮説における母平均の値
- $ s $ :標本標準偏差
- $ n $ :標本サイズ
この統計量は自由度 $ n-1 $ のt分布に従います。標本サイズが小さい場合には正規分布に比べて裾が厚いため、極端な値が出現する確率を適切に評価できます。標本サイズが大きくなるとt分布は標準正規分布に漸近します。
1標本t検定
1標本t検定は、標本平均が理論的に期待される平均値と等しいかどうかを検証する方法です。
- $ H_0 $ : $ \mu = \mu_0 $
- $ H_1 $ : $ \mu \neq \mu_0 $
統計量は次の式で計算されます。
$$ t = \frac{\bar{X} – \mu_0}{s/\sqrt{n}} $$
前提条件
- 測定値が互いに独立していること
- データが正規分布に従うこと
実例
食品会社が新製品ヨーグルトの1食分あたりのカルシウム含有量が基準値100mgと等しいかどうかを調べる場合、ランダムに10個を抽出して平均が98mgであったとします。このとき1標本t検定を行うことで、差が偶然のばらつきによるものか、あるいは有意な差であるかを判定できます。
2標本t検定
2標本t検定は二つの独立した集団の平均を比較する方法です。さらにStudentのt検定とWelchのt検定に分かれます。
Studentのt検定の数式モデル
- $ H_0 $ : $ \mu_1 = \mu_2 $
- $ H_1 $ : $ \mu_1 \neq \mu_2 $
統計量は次の式で計算されます。
$$ t = \frac{\bar{X}_1 – \bar{X}_2}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
プールした標準偏差 $ s_p $ は次の通りです。
$$ s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}} $$
前提条件
- 両群のデータが独立していること
- 母集団が正規分布に従うこと
- 両群の分散が等しいこと
Welchのt検定は分散が異なる場合でも使用でき、次の式で定義されます。
$$ t = \frac{\bar{X}_1 – \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$
自由度はWelch-Satterthwaite近似により計算されます。
実例
新しい学習法を導入したクラス(n=25)と従来法のクラス(n=30)の数学テスト平均点を比較する場合、分散が等しいと仮定できればStudentのt検定を用います。もし分散が異なる場合にはWelchのt検定を選択する必要があります。
対応のあるt検定
対応のあるt検定は、同一被験者における前後比較やペアデータに適用されます。
- $ H_0 $ : $ \mu_d = 0 $
- $ H_1 $ : $ \mu_d \neq 0 $
統計量は以下の通りです。
$$ t = \frac{\bar{D}}{s_d/\sqrt{n}} $$
- $ \bar{D} $ :差の平均値
- $ s_d $ :差の標準偏差
- $ n $ :ペア数
前提条件
- ペアごとの差が独立していること
- 差が正規分布に従うこと
実例
新薬の降圧効果を検証する際、同じ患者の投与前後の血圧を測定して比較する場合に対応のあるt検定を用います。この手法により薬が血圧低下に有意な影響を与えるかを確認できます。
効果量の導入
t検定においては有意差の有無だけでなく、差の大きさを測定することが重要です。これを表すのが効果量(effect size)です。
Cohen’s dは次の式で表されます。
$$ d = \frac{\bar{X}_1 – \bar{X}_2}{s_p} $$
Hedges’ gは小標本補正を行った効果量であり、次のように定義されます。
$$ g = d \times \left(1 – \frac{3}{4(n_1+n_2)-9}\right) $$
解釈基準は以下の通りです。
- 0.2:小さい効果
- 0.5:中程度の効果
- 0.8:大きな効果
実例紹介
実例1
教育現場において、新しい教材の効果を検証するため、クラスA(新教材)とクラスB(従来教材)のテスト平均点を比較しました。Studentのt検定で有意差が確認され、効果量Cohen’s dは0.65となり中程度から大きい効果があると解釈されました。
実例2
医学研究で新薬投与前後の血圧を比較したところ、対応のあるt検定で有意差が検出されました。効果量Hedges’ gは0.72であり、実際的に意味のある効果と判断されました。
実例3
製造業の品質管理において、工程改善前後で製品重量を比較しました。対応のあるt検定で有意差が確認され、効果量Cohen’s dは0.45であり、中程度の効果を持つことが示されました。
t検定の注意点
- 正規性の確認が必要であり、小標本では特に重要です。正規性が満たされない場合はノンパラメトリック検定(Wilcoxon検定など)を検討する必要があります。
- 分散の等質性が前提とされる場合、Levene検定やF検定で確認することが推奨されます。等分散性が否定された場合はWelchのt検定を選択するべきです。
- 複数の比較を同時に行うと多重比較問題が発生し、第1種過誤のリスクが高まります。ボンフェローニ補正やFDR補正の利用が推奨されます。
- 効果量の解釈を常に行い、p値だけに依存しないことが望まれます。
まとめ
t検定は平均値の差を検定するための基礎的かつ汎用的な手法であり、1標本t検定、2標本t検定(StudentとWelch)、対応のあるt検定といった複数のバリエーションがあります。各手法には固有の前提条件が存在し、それを満たさない場合には適切な解釈ができません。また、単なる有意差の有無ではなく、効果量を併せて報告することにより、結果の実質的意義を理解することができます。教育、医学、工学など多様な実例を通じて、t検定は研究や実務において欠かせない統計手法であることが確認されます。

