Top 5 This Week

関連記事

21. GLMの漸近理論:最尤推定量の統計的性質

- 本サイト運営者のサービスの紹介 -

なぜ漸近理論が必要か:有限標本理論の限界

線形回帰モデルでは、誤差項に正規分布を仮定することで最小二乗推定量の有限標本分布を厳密に導出できます。具体的には、推定量 $\hat{\boldsymbol{\beta}}_{\text{OLS}}$ は正確な正規分布に従い、$t$ 統計量や $F$ 統計量はそれぞれ $t$ 分布・$F$ 分布に従います。この性質はサンプルサイズによらず成立するため、小標本でも検定と信頼区間を厳密に構成できます。

一般化線形モデルでは事情が異なります。応答変数がベルヌーイ分布やポアソン分布などの非正規分布に従う場合、最尤推定量 $\hat{\boldsymbol{\beta}}$ の有限標本分布は一般に閉じた形で得られません。IRLS(反復重み付き最小二乗法)による推定値は対数尤度を最大化する点として数値的に求められますが、その確率分布そのものを解析的に記述することは困難です。そのため、GLMの推測統計は $n \to \infty$ の漸近的な枠組みに依拠します。

OLS と GLM の理論的基盤の違いはこの点に集約されます。OLS では Gauss-Markov 定理が有限標本で成立し、正規誤差の仮定のもとで最小分散不偏推定量であることが保証されます。一方 GLM の MLE は有限標本での最適性を直接保証せず、推定量の統計的性質を記述するためには $n \to \infty$ のもとでの一致性・漸近正規性・漸近有効性に頼らざるを得ません。この非対称性が、GLM において漸近理論を必要とする根本的な動機です。

漸近理論の基本的な発想は、対数尤度関数 $\ell(\boldsymbol{\beta})$ をパラメータ空間の近傍でテイラー展開し、十分大きな $n$ において推定量の分布を正規分布で近似することです。スコア関数 $\boldsymbol{s}(\boldsymbol{\beta}) = \partial \ell / \partial \boldsymbol{\beta}$ の期待値がゼロになるという性質、すなわち

$$
E\!\left[\frac{\partial \log f(Y;\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right] = \boldsymbol{0}
$$

はこの展開の出発点となります。対数尤度の二階微分の期待値の符号を反転した量として Fisher 情報行列

$$
\mathcal{I}(\boldsymbol{\beta}) = -E\!\left[\frac{\partial^2 \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}\,\partial \boldsymbol{\beta}^\top}\right]
$$

が定義され、これが推定精度の理論的な尺度となります。

漸近理論が有効に機能するためには、正則条件と呼ばれる前提が必要です。主な条件として、対数尤度が $\boldsymbol{\beta}$ について少なくとも三階微分可能であること、および分布の支持集合がパラメータに依存しないことが挙げられます。

なお、漸近近似は $n$ が小さい場合には不正確になりえます。特にイベント数が少ない2値データや観測数の少ない多項データでは、漸近検定の第一種過誤率が名目水準から乖離することが知られています。実務では標本サイズと応答分布の特性を踏まえた慎重な解釈が求められます。

Fisher情報行列とCramér-Rao下界

スコアベクトル $\boldsymbol{s}(\boldsymbol{\beta}) = \partial \ell(\boldsymbol{\beta}) / \partial \boldsymbol{\beta}$ は、真のパラメータ値において期待値がゼロになります。この性質から、スコアベクトルの分散共分散行列は Fisher 情報行列そのものに等しいことが示されます。

$$
\mathrm{Var}\!\left[\boldsymbol{s}(\boldsymbol{\beta})\right]
= E\!\left[\boldsymbol{s}(\boldsymbol{\beta})\,\boldsymbol{s}(\boldsymbol{\beta})^\top\right]
= \mathcal{I}(\boldsymbol{\beta})
$$

この等式は、スコアの「散らばり」が情報量を表すという直観を与えます。スコアが真のパラメータ近傍で敏感に変化するほど、データはパラメータをより精密に識別できます。

Fisher 情報行列には期待値形式と観測情報行列の二つの表現があります。

$$
\mathcal{I}(\boldsymbol{\beta}) = -E\!\left[\frac{\partial^2 \ell}{\partial \boldsymbol{\beta}\,\partial \boldsymbol{\beta}^\top}\right], \qquad
\hat{\mathcal{I}}(\hat{\boldsymbol{\beta}}) = -\frac{\partial^2 \ell}{\partial \boldsymbol{\beta}\,\partial \boldsymbol{\beta}^\top}\bigg|_{\boldsymbol{\beta}=\hat{\boldsymbol{\beta}}}
$$

前者は真のパラメータにおける期待値として定義される理論量であり、後者は推定値を代入して計算される観測量です。指数型分布族に属するモデルでは、対数尤度の構造により $\mathcal{I}(\boldsymbol{\beta})$ を解析的に計算できます。

GLM においては、Fisher 情報行列はデザイン行列 $\boldsymbol{X}$ と対角重み行列 $\boldsymbol{W}$ を用いて

$$
\mathcal{I}(\boldsymbol{\beta}) = \boldsymbol{X}^\top \boldsymbol{W} \boldsymbol{X}
$$

と表されます。重み行列 $\boldsymbol{W}$ の対角成分 $w_i = [\mu_i'(\eta_i)]^2 / V(\mu_i)$ はリンク関数の導関数と分散関数によって決まり、GLM の分布と構造が推定精度に直接影響することを示しています。

Cramér-Rao 下界は、任意の不偏推定量 $\tilde{\boldsymbol{\beta}}$ の分散共分散行列の下限を与えます。行列版の不等式は

$$
\mathrm{Var}[\tilde{\boldsymbol{\beta}}] – \mathcal{I}(\boldsymbol{\beta})^{-1} \succeq \boldsymbol{0}
$$

と表されます。ここで $\succeq \boldsymbol{0}$ は半正定値を意味します。すなわち、いかなる不偏推定量の分散共分散行列も $\mathcal{I}(\boldsymbol{\beta})^{-1}$ より小さくなることはありません。MLE が漸近的にこの下界を達成する推定量であることが、次節で確立されます。

前提条件として、指数型分布族の正則条件(対数分配関数の微分可能性など)とモデルの識別可能性が必要です。識別可能性とは、異なるパラメータが同一の分布を生成しないことを意味し、これが成立しないと情報行列が正定値にならず下界が意味をなしません。

限界として、Cramér-Rao 下界は不完全族と呼ばれるモデルクラスでは達成不可能な場合があります。また、observed 情報行列は期待情報行列の推定量として機能しますが、小標本ではその差が無視できず、標準誤差の計算に系統的な誤差が生じることがあります。

Fisher情報行列曲面図

(Fig1. 単純ロジスティック回帰における Fisher 情報行列の対角成分(推定精度)とサンプルサイズ・真のβ値の関係を示す曲面図)

最尤推定量の漸近性質:一致性・漸近正規性・漸近有効性

GLM の最尤推定量は、大標本のもとで三つの重要な統計的性質を持ちます。これらは一致性・漸近正規性・漸近有効性と呼ばれます。

一致性とは、サンプルサイズ $n$ が増大するにつれて $\hat{\boldsymbol{\beta}}$ が真値 $\boldsymbol{\beta}_0$ に確率収束するという性質です。

$$
\hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta}_0 \quad (n \to \infty)
$$

証明の骨格は大数の法則に依拠します。各観測が独立同一分布に従うとき、標本平均対数尤度 $n^{-1}\ell(\boldsymbol{\beta})$ は期待値 $E[\log f(Y;\boldsymbol{\beta})]$ に収束します。Kullback-Leibler 情報量の非負性により、この期待値は真のパラメータ $\boldsymbol{\beta}_0$ で一意に最大となるため、最大化点も $\boldsymbol{\beta}_0$ に収束します。

漸近正規性は、スコア方程式を真値周りでテイラー展開することで示されます。$\boldsymbol{\beta}_0$ 近傍での一階展開から

$$
\boldsymbol{0} = \boldsymbol{s}(\hat{\boldsymbol{\beta}}) \approx \boldsymbol{s}(\boldsymbol{\beta}_0) + \frac{\partial \boldsymbol{s}}{\partial \boldsymbol{\beta}^\top}\bigg|_{\boldsymbol{\beta}_0}(\hat{\boldsymbol{\beta}} – \boldsymbol{\beta}_0)
$$

が得られます。中心極限定理により $n^{-1/2}\boldsymbol{s}(\boldsymbol{\beta}_0) \xrightarrow{d} N(\boldsymbol{0}, \mathcal{I}(\boldsymbol{\beta}_0))$ が成立し、整理すると

$$
\sqrt{n}(\hat{\boldsymbol{\beta}} – \boldsymbol{\beta}_0) \xrightarrow{d} N\!\left(\boldsymbol{0},\, \mathcal{I}(\boldsymbol{\beta}_0)^{-1}\right)
$$

が得られます。漸近分散 $\mathcal{I}(\boldsymbol{\beta}_0)^{-1}$ はまさに Cramér-Rao 下界であり、これが漸近有効性の内容です。MLE は大標本において不偏推定量の中で最小の漸近分散を実現します。

この結果は IRLS と整合しています。IRLS(反復重み付き最小二乗法)の各反復は Fisher Scoring の更新則

$$
\hat{\boldsymbol{\beta}}^{(t+1)} = \hat{\boldsymbol{\beta}}^{(t)} + \mathcal{I}(\hat{\boldsymbol{\beta}}^{(t)})^{-1}\boldsymbol{s}(\hat{\boldsymbol{\beta}}^{(t)})
$$

に相当し、収束点は対数尤度の最大化点、すなわち MLE に一致します。

ベイズ推定量との比較では、事後分布の最頻値であるMAP推定量と MLE の関係が重要です。事前分布が一様分布に収束する極限では MAP は MLE に一致しますが、有限標本では事前分布が推定値を引き寄せる効果を持ちます。大標本のもとでは尤度が事前分布を圧倒し、事後分布は $N(\hat{\boldsymbol{\beta}}_{\text{MLE}},\, \mathcal{I}(\boldsymbol{\beta})^{-1}/n)$ に収束します。この収束をBernstein-von Mises定理と呼び、漸近的にはベイズ事後分布とMLEの漸近正規分布が一致することを示しています。したがって、大標本では両推定枠組みは同等の推論結果を与えますが、小標本では事前分布の選択がベイズ推定量の性質を大きく左右します。

準尤度推定量との比較では、分布族を完全に特定せずに平均・分散の構造のみを仮定する推定手法である準尤度推定量が MLE と異なる漸近効率を持つ点が重要です。準尤度推定量は分散関数 $V(\mu)$ の指定のみに依拠し、完全な分布の対数尤度を最大化しません。指数型分布族の仮定が正しい場合、MLE は Cramér-Rao 下界を達成する漸近有効推定量ですが、準尤度推定量は一般にこの下界を達成しません。一方、分布の誤指定がある場合には準尤度推定量のロバスト性が優位に働きます。過分散データなど分布族の完全特定が困難な場面では、準尤度推定量は MLE より安定した推論を提供しますが、その代償として漸近効率が低下します。

これらの性質が成立するための仮定として、識別可能性、Fisher 情報行列の正定値性、および対数尤度の三階微分の有界性が必要です。また観測は独立同一分布に従うことが基本的な前提となります。

限界として、境界パラメータが存在する場合や無限次元パラメータを含む半母数モデルでは漸近正規性が崩壊することがあります。また、ロジスティック回帰における完全分離問題では共変量がカテゴリを完全に判別できるために MLE が有限値に収束せず、推定量自体が発散します。この場合、Firth の罰則付き尤度法などの代替手法が必要となります。

MLEの漸近正規性シミュレーション

(Fig2. ロジスティック回帰係数 β̂ の標本分布がサンプルサイズ増大とともに正規分布に収束する様子(シミュレーション))

逸脱度統計量の漸近χ²分布

逸脱度は、当てはめモデルと飽和モデルの対数尤度を比較することで定義されます。飽和モデルとは各観測に独立したパラメータを割り当てた最大自由度のモデルであり、その対数尤度 $\ell_{\text{sat}}$ はデータを完全に再現します。当てはめモデルの対数尤度を $\ell(\hat{\boldsymbol{\beta}})$ とすると、逸脱度は

$$
D = 2\!\left[\ell_{\text{sat}} – \ell(\hat{\boldsymbol{\beta}})\right]
$$

と定義されます。$D$ は常に非負であり、当てはめが完全なときにゼロとなります。

二つのネストモデル(制約モデルと非制約モデル)を比較する際に用いる逸脱度差は

$$
\Delta D = D_{\text{制約}} – D_{\text{非制約}} = 2\!\left[\ell(\hat{\boldsymbol{\beta}}_{\text{非制約}}) – \ell(\hat{\boldsymbol{\beta}}_{\text{制約}})\right]
$$

と書け、これは尤度比統計量の2倍に等しくなります。Wilks の定理によれば、帰無仮説が真であるとき、この統計量は漸近的に自由度 $\nu$ のカイ二乗分布に従います。自由度 $\nu$ は非制約モデルと制約モデルのパラメータ数の差、すなわち制約の個数に等しくなります。

$$
\Delta D \xrightarrow{d} \chi^2(\nu) \quad \text{(帰無仮説下、} n \to \infty\text{)}
$$

逸脱度の分解は次のように書けます。

$$
D_{\text{全体}} = D_{\text{残差}} + D_{\text{回帰}}
$$

ここで $D_{\text{回帰}}$ は切片のみのモデルと当てはめモデルの逸脱度差であり、説明変数が寄与する変動量を表します。また、Pearson カイ二乗統計量 $X^2 = \sum (y_i – \hat{\mu}_i)^2 / V(\hat{\mu}_i)$ も同じ漸近分布に従い、$\Delta D$ と $X^2$ は漸近的に等価です。

この結果が有効に機能するためには、各セルの期待度数が十分に大きいという大標本近似の条件が必要です。ポアソン回帰では期待カウントが5以上、二項回帰では $n_i p_i \geq 5$ かつ $n_i(1-p_i) \geq 5$ 程度が目安とされています。

スパースデータでは各セルの期待度数が小さくなるため、逸脱度の $\chi^2$ 近似は精度を失います。この場合、パーミュテーション検定や正確検定を用いることが推奨されます。また、ガンマ回帰や正規回帰のように応答変数が連続である場合、逸脱度の $\chi^2$ 分布への収束は厳密な意味では成立せず、$F$ 検定への読み替えが必要になることがあります。

表1. 逸脱度差の漸近分布:モデル比較ケース別まとめ
比較の種類 統計量 漸近分布 自由度 注意点
ネストモデル(LR検定) $\Delta D = D_0 – D_1$ $\chi^2(\nu)$ パラメータ数の差 $p_1 – p_0$ 大標本近似が前提;スパースデータで近似悪化
残差逸脱度の適合度検定 $D_{\text{残差}}$ $\chi^2(n-p)$(近似) $n – p$(観測数 − パラメータ数) 連続応答・スパースデータでは不正確
AICによるモデル比較 $\mathrm{AIC} = -2\ell + 2p$ なし(情報量規準) ネスト関係不要;検定ではなく選択の基準
Pearson $\chi^2$ との比較 $X^2 = \sum (y_i – \hat{\mu}_i)^2 / V(\hat{\mu}_i)$ $\chi^2(n-p)$(漸近) $n – p$ $\Delta D$ と漸近等価;小標本での挙動は異なる

Wald・尤度比・スコア検定の漸近的等価性

GLM における仮説検定では、同一の帰無仮説 $H_0: \boldsymbol{R}\boldsymbol{\beta} = \boldsymbol{r}$ に対して三つの漸近検定が利用可能です。これらは Wald 検定、尤度比検定、およびスコア検定と呼ばれ、大標本のもとで漸近的に同一の棄却域を持ちます。スコア検定はRaoにより提唱された方法です。

Wald 検定は推定量と漸近標準誤差のみから計算されます。

$$
W = (\boldsymbol{R}\hat{\boldsymbol{\beta}} – \boldsymbol{r})^\top \!\left[\boldsymbol{R}\,\hat{\mathcal{I}}(\hat{\boldsymbol{\beta}})^{-1}\boldsymbol{R}^\top\right]^{-1}(\boldsymbol{R}\hat{\boldsymbol{\beta}} – \boldsymbol{r}) \xrightarrow{d} \chi^2(\nu)
$$

尤度比検定は制約モデルと非制約モデルの対数尤度差に基づきます。

$$
\mathrm{LR} = 2\!\left[\ell(\hat{\boldsymbol{\beta}}_{\text{非制約}}) – \ell(\hat{\boldsymbol{\beta}}_{\text{制約}})\right] \xrightarrow{d} \chi^2(\nu)
$$

スコア検定は、制約モデルの推定値でスコアベクトルを評価します。帰無仮説が真であれば制約モデルでのスコアはゼロ付近に分布するという原理に基づきます。

$$
S = \boldsymbol{s}(\hat{\boldsymbol{\beta}}_{\text{制約}})^\top \hat{\mathcal{I}}(\hat{\boldsymbol{\beta}}_{\text{制約}})^{-1} \boldsymbol{s}(\hat{\boldsymbol{\beta}}_{\text{制約}}) \xrightarrow{d} \chi^2(\nu)
$$

三検定の漸近的等価性はパラメータ空間における距離解釈で理解できます。Wald 検定は推定点と帰無仮説制約面との距離、LR 検定は対数尤度関数の高さの差、スコア検定は制約点における尤度関数の傾きをそれぞれ測定します。$n \to \infty$ においてこれら三つの距離は同一の漸近分布に収束します。

この等価性が成立するための条件として、帰無仮説のパラメータ値がパラメータ空間の内点にあることが必要です。境界制約(例えば $\beta \geq 0$ という制約上での検定)では通常の $\chi^2$ 分布への収束が成立せず、混合カイ二乗分布を用いた修正が必要となります。

有限標本では三検定の挙動は異なります。Wald 検定は制約モデルの推定を必要とせず計算が容易ですが、小標本ではパラメータ変換に対して不変でないという問題があり、特にロジスティック回帰での分離問題が生じる場合には発散します。LR 検定は計算上、制約・非制約の両モデルを推定する必要があり計算コストが高い反面、有限標本での性能は比較的安定しています。スコア検定は非制約モデルの推定を必要とせず、特定の仮説(例えばハザード比の検定)で計算上有利ですが、実務ではLRやWaldほど広く用いられていません。

表2. Wald・LR・スコア検定の比較
検定 統計量の定義 必要な推定 長所 短所 実務推奨場面
Wald $(\hat{\beta} – \beta_0)^2 / \widehat{\mathrm{Var}}(\hat{\beta})$ 非制約モデルのみ 計算が単純;推定値から直接算出可能 小標本・分離問題で不安定;変換不変性なし 標準的な係数検定;大標本の回帰出力解釈
尤度比 $2[\ell_1 – \ell_0]$ 制約・非制約の両モデル 有限標本での安定性が高い;変換不変 両モデルの最適化が必要;計算コスト高 ネストモデル比較;交互作用項の有意性検定
スコア検定 $\boldsymbol{s}_0^\top \hat{\mathcal{I}}_0^{-1} \boldsymbol{s}_0$ 制約モデルのみ 非制約推定が不要;大規模モデルで有利 実務での使用機会が限られる;実装が少ない 非制約推定が困難な場合;仮説の事前スクリーニング
三検定分布比較

(Fig3. ロジスティック回帰の単一係数検定における Wald・LR・スコア統計量の分布比較(シミュレーション;n=30, 100, 500))

生物統計への応用:臨床試験データでの漸近理論の実践

漸近理論の結果は臨床試験の設計と解析において具体的な手順として機能します。ここでは2群比較の無作為化試験を想定し、2値の主要評価項目(例:治療奏効の有無)に対するロジスティック回帰を用いた解析を例に取ります。

治療効果の推定では、治療群を示す0/1の共変量 $x_i$ を含むロジスティック回帰モデルを当てはめ、係数 $\hat{\beta}_1$ を推定します。漸近正規性の結果から、信頼区間は

$$
\hat{\beta}_1 \pm z_{\alpha/2} \cdot \widehat{\mathrm{SE}}(\hat{\beta}_1)
$$

と構成されます。ここで $\widehat{\mathrm{SE}}(\hat{\beta}_1) = \sqrt{[\hat{\mathcal{I}}(\hat{\boldsymbol{\beta}})^{-1}]_{11}}$ は観測情報行列の対応する対角成分の平方根です。指数変換により得られるオッズ比の信頼区間は $\exp(\hat{\beta}_1 \pm z_{\alpha/2} \cdot \widehat{\mathrm{SE}}(\hat{\beta}_1))$ となります。この区間構成の漸近的正当性は、前節で確立した MLE の漸近正規性に直接基づいています。

標本サイズ設計への応用では、Fisher 情報行列が中心的な役割を担います。単純ロジスティック回帰において、係数 $\beta_1$ の推定精度の下界は $n^{-1}[\mathcal{I}(\boldsymbol{\beta})^{-1}]_{11}$ で与えられます。所望の検出力と有意水準に対して、必要サンプルサイズは

$$
n \geq \frac{(z_{\alpha/2} + z_\gamma)^2}{[\mathcal{I}_1(\boldsymbol{\beta})]_{11}}
$$

として導出されます。ここで $z_\gamma$ は検出力 $\gamma$ に対応する標準正規分位点です。この公式は Fisher 情報行列が大きいほど(すなわちデータが情報量を多く含むほど)少ない標本数で所望の精度が得られることを定量的に示しています。

サブグループ解析や交互作用の検定には LR 検定が広く用いられます。例えば治療効果が年齢層で異なるかを検討する場合、交互作用項「治療 × 年齢層」を含むモデルと含まないモデルの逸脱度差を漸近 $\chi^2$ 統計量として評価します。LR 検定は Wald 検定に比べて有限標本での安定性が高く、臨床試験での交互作用検定に推奨されます。

漸近有効性の臨床的意義は、MLE が収集されたデータから最大限の情報を引き出していることの保証にあります。すなわち、MLE を用いた解析では他の不偏推定手法よりも信頼区間が狭くなり、同一の標本サイズで高い検出力が達成されます。

これらの結果が成立するための本質的な前提は、モデルが正しく指定されていることです。リンク関数や分布族の選択が誤っている場合、MLE の一致性は保証されず、漸近信頼区間は名目の被覆率を達成しません。

モデルが誤指定されている場合には、サンドウィッチ推定量(Huber-White 推定量)による頑健な標準誤差の使用が必要となります。サンドウィッチ推定量は

$$
\hat{V}_{\text{sandwich}} = \hat{\mathcal{I}}^{-1}\!\left(\sum_{i=1}^n \hat{\boldsymbol{s}}_i \hat{\boldsymbol{s}}_i^\top\right)\!\hat{\mathcal{I}}^{-1}
$$

と定義され、分布の誤指定に対して漸近的に頑健な推論を可能にします。また、多重比較を伴う解析では個々の漸近検定の $p$ 値を Bonferroni 法や Holm 法で補正する必要があり、補正なしで行われた複数の漸近検定は第一種過誤率が名目水準を超える点に注意が必要です。

信頼区間被覆率シミュレーション

(Fig4. ロジスティック回帰係数の漸近95%信頼区間の被覆率:サンプルサイズ別シミュレーション(n=20〜500))

Popular Articles