Top 5 This Week

関連記事

19. ベイズGLM:事前分布と事後推定の枠組み

- 本サイト運営者のサービスの紹介 -

ベイズGLMの定式化:尤度・事前分布・事後分布

ベイズ統計をGLMに適用する枠組みでは、パラメータ $\beta$ は固定値ではなく確率変数として扱われます。観測データ $y$ を所与としたとき、ベイズの定理によりパラメータの事後分布は

$$p(\beta \mid y) \propto p(y \mid \beta)\, p(\beta)$$

と表されます。右辺の $p(y \mid \beta)$ が尤度関数、$p(\beta)$ が事前分布です。この比例関係を等式にするための正規化定数(周辺尤度)は

$$p(y) = \int p(y \mid \beta)\, p(\beta)\, d\beta$$

と定義されます。この積分は一般に解析的な計算が不可能であり、数値的近似手法の必要性を生じさせます。

GLMの尤度関数は指数型分布族から導かれ、その一般形は

$$p(y_i \mid \theta_i, \phi) = \exp\!\left(\frac{y_i \theta_i – b(\theta_i)}{\phi} + c(y_i, \phi)\right)$$

と書かれます。この式において $\theta_i$ は自然パラメータ、$y_i$ は十分統計量(sufficient statistic)、$b(\theta_i)$ は分散関数、$\phi$ は分散パラメータです。リンク関数 $g$ を通じて $\theta_i$ と線形予測子 $\eta_i = x_i^\top \beta$ が接続されます。ベルヌーイ分布ではロジット関数、ポアソン分布では対数関数がそれぞれ標準リンク関数として対応します。

頻度論GLMでは $\beta$ の点推定として最尤推定量(MLE)が求められます。これに対しベイズ推定では事後分布全体が推定結果となり、パラメータの不確実性が完全に表現されます。正規事前分布 $\beta \sim N(0, \sigma^2 I)$ を仮定した場合のMAP推定は、ペナルティ項の形式からリッジ正則化(L2正則化)と等価になります。この等価性は、事前分布が正則化効果を担うことを示します。

仮定として、各 $\beta_j$ への独立な事前分布の割り当て(事前分布の独立性)と、指数型分布族の仮定に基づく尤度の正確な定式化が求められます。限界として、正規化定数の解析的計算は非共役ケースでは一般に不可能であり、高次元パラメータ空間での事後分布サンプリングには計算上の困難が伴います。

観点 頻度論GLM(MLE) ベイズGLM
パラメータの性質 固定された未知定数 確率変数(事前分布を持つ)
推定方法 反復重み付き最小二乗法(IRLS) MCMC・Laplace近似・変分推論
不確実性の表現 標準誤差・漸近分散 事後分布(有限標本で有効)
区間推定の解釈 信頼区間(反復手続きの95%を含む) 信用区間(パラメータが95%の確率で含まれる)
事前知識の統合 不可(推定プロセス外) 事前分布として明示的に統合
モデル選択基準 AIC・BIC・尤度比検定 WAIC・LOO-CV・周辺尤度
計算コスト 反復最適化(比較的低コスト) MCMCは高コスト、近似手法は中程度

事前分布の設計:共役・弱情報・スパース事前分布

事前分布の選択はベイズ推定の結果に直接影響を与えます。正規事前分布 $\beta_j \sim N(0, \sigma^2)$ はリッジ正則化と等価なMAP解を与え、正規-正規共役の場合は事後分布も正規分布となり解析的更新が可能です。

弱情報事前分布は過度な情報を持たせず、推定値が極端な値をとることを抑制します。分散パラメータへの半Cauchy事前分布

$$p(\sigma) \propto \left(1 + \frac{\sigma^2}{s^2}\right)^{-1}, \quad \sigma > 0$$

はスケールパラメータ $s$ によって重い裾を持ちながら正の値に制限されます。

Jeffreys事前分布 $p(\beta) \propto |I(\beta)|^{1/2}$ はフィッシャー情報行列 $I(\beta)$ の行列式の平方根に比例する非情報的事前分布です。horseshoe事前分布は局所収縮パラメータ $\lambda_j$ と大域収縮パラメータ $\tau$ の階層構造を持ち、スパースな係数推定に適しています。多くの係数がゼロ付近に収縮しつつ、真に大きな係数は収縮から逃れる性質を持ちます。

事前予測分布 $p(y) = \int p(y \mid \beta)\, p(\beta)\, d\beta$ は観測前のデータ生成分布を表します。事前予測確認(prior predictive check)ではこの分布からサンプルを生成し、観測データの範囲と比較することで事前分布の妥当性を評価します。

事前分布の解釈可能性にはパラメータのスケールと測定単位との整合性が必要です。各パラメータへの独立事前分布割り当てを前提とし、パラメータ間の共分散構造を持たせる場合は多変量事前分布が必要になります。データが希少な状況や稀なイベントでは事前分布が推定を支配する影響力を持ちます。事前分布選択の主観性から、分析報告における選択根拠の透明性が求められます。

事後分布のMCMC近似:Metropolis-HastingsとHMC/NUTS

非共役事前分布を用いた場合、事後分布の解析的表現は得られません。マルコフ連鎖モンテカルロ(MCMC)は定常分布が事後分布 $p(\beta \mid y)$ となるマルコフ連鎖を構築することで事後分布からのサンプルを取得します。

Metropolis-Hastings法では提案分布 $q(\beta’ \mid \beta)$ から候補点 $\beta’$ を生成し、採択確率

$$\alpha = \min\!\left(1,\; \frac{p(\beta’ \mid y)\, q(\beta \mid \beta’)}{p(\beta \mid y)\, q(\beta’ \mid \beta)}\right)$$

で採択・棄却を決定します。この手続きにより詳細釣り合い条件が満たされ、定常分布が事後分布に保証されます。提案分布の選択は混合速度に影響します。

ハミルトニアンモンテカルロ(HMC)は補助的な運動量変数 $r$ を導入し、ハミルトニアン

$$H(\beta, r) = U(\beta) + K(r)$$

を定義します。$U(\beta) = -\log p(\beta \mid y)$ は負の対数事後密度(ポテンシャルエネルギー)、$K(r) = \frac{1}{2} r^\top M^{-1} r$ は運動エネルギーです。勾配情報を用いた物理的な軌道計算により、相関したパラメータ空間でもランダムウォーク的な非効率を大幅に削減します。No-U-Turn Sampler(NUTS)は経路長を自動的に設定し、手動調整の必要を除去します。

収束診断には3指標が用いられます。トレースプロットでは複数チェーンの混合状態を目視確認します。$\hat{R}$ 統計量(Gelman-Rubin統計量)はチェーン間分散とチェーン内分散の比の平方根として定義され、$\hat{R} < 1.01$ が収束の実践的基準です。有効標本サイズ(ESS)は自己相関を考慮した実効的なサンプル数を表します。バーンイン(warm-up)期間のサンプルは過渡状態に対応するため棄却します。

マルコフ連鎖の定常分布への収束は非周期性と既約性を条件とし、詳細釣り合い条件の充足が定常分布を保証します。大規模データや高次元パラメータ空間では計算コストが著しく増加します。収束の理論的保証は存在せず、診断はヒューリスティックな実践的手続きです。多峰分布では混合速度が低下し、局所的停滞が生じるリスクがあります。

MCMCトレースプロットと収束診断

(Fig2. MCMCトレースプロットと収束診断:4チェーンの混合状態と$\hat{R}$統計量・有効標本サイズ)

Laplace近似と変分推論:スケーラブルな近似ベイズ

MCMCの計算コストが制約となる場面では、決定論的近似手法が利用されます。Laplace近似はMAP推定値 $\hat{\beta}$ を中心として対数事後密度を二次展開します。

$$\log p(\beta \mid y) \approx \log p(\hat{\beta} \mid y) – \frac{1}{2}(\beta – \hat{\beta})^\top H (\beta – \hat{\beta})$$

ここで $H = -\nabla^2 \log p(\hat{\beta} \mid y)$ はHessian行列です。この近似により事後分布は正規分布 $N(\hat{\beta},\, H^{-1})$ で近似されます。手順はMAP推定 → Hessian計算 → 正規分布近似の順で実行され、MCMCと比較して大幅に低い計算コストで近似事後分布が得られます。

変分推論では扱いやすい変分族 $\mathcal{Q}$ から $q(\beta)$ を選択し、KLダイバージェンス $\mathrm{KL}(q(\beta) \| p(\beta \mid y))$ を最小化します。この最小化は証拠下限

$$\mathrm{ELBO} = \mathbb{E}_q[\log p(y, \beta)] – \mathbb{E}_q[\log q(\beta)]$$

の最大化と等価です。平均場近似(mean-field approximation)では $q(\beta) = \prod_j q_j(\beta_j)$ のパラメータ間独立性を仮定します。確率的変分推論はミニバッチを用いた大規模データへの拡張を可能にします。INLA(統合ネストLaplace近似)は格子型潜在変数モデルに対して効率的な近似を提供し、疫学分野での空間モデルに広く応用されます。

手法 近似精度 計算コスト スケーラビリティ 主な適用条件
MCMC(HMC/NUTS) 漸近的に正確(多峰分布にも対応) 高(大規模データで顕著) 低〜中(並列化で改善可) 小〜中規模データ、精度優先
Laplace近似 単峰・対称分布で良好、非対称・多峰で低下 低〜中(MAP最適化+Hessian計算) 高(INLA利用時は特に有効) 単峰事後分布、中〜大規模データ
変分推論(平均場) パラメータ相関を無視、分散過小評価の傾向 低〜中(確率的VIで大規模対応) 高(ミニバッチ最適化) 大規模データ、速度優先

Laplace近似の適用条件は事後分布の単峰性とMAP周辺での二次近似の十分な精度です。多峰分布や強い非対称事後分布への適用は不適切です。平均場近似はパラメータ間相関(事後共分散)を無視するため事後分散を過小評価する傾向があります。変分推論の収束は局所最適解に留まる可能性があり、大域最適の保証はありません。

事後予測分布と不確実性定量化

ベイズGLMが提供する重要な出力の一つが事後予測分布です。新たな観測値 $\tilde{y}$ に対する予測分布は

$$p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \beta)\, p(\beta \mid y)\, d\beta$$

と定義されます。この積分はパラメータの不確実性を予測に伝播させます。MCMCサンプル $\{\beta^{(s)}\}_{s=1}^{S}$ を用いたMonte Carlo近似は

$$p(\tilde{y} \mid y) \approx \frac{1}{S} \sum_{s=1}^{S} p(\tilde{y} \mid \beta^{(s)})$$

で与えられます。この近似の精度はサンプルサイズ $S$ とMCMCの収束状態に依存します。

予測の不確実性は2種類に加法的に分解されます。認識論的不確実性はパラメータの不確実性(データ追加により縮小可能)に由来し、偶発的不確実性は観測ノイズによる固有分散(縮小不可能)に由来します。ベイズGLMはこの分解を明示的に提供します。

ベイズ信用区間の解釈は「パラメータが95%の確率でこの区間に含まれる」であり、頻度論の信頼区間(「同様の手続きを繰り返した場合に95%の割合でパラメータを含む区間が構成される」)とは根本的に異なります。事後予測確認(posterior predictive check)では事後予測分布から生成したデータと観測データの分布を比較してモデルの適合度を診断します。

MCMCサンプルが収束した定常分布(真の事後分布)を十分に代表することと、リンク関数・分布族の仮定が適切であることが前提となります。大量サンプルに基づく積分計算にはメモリと計算コストが必要です。モデルミスマッチ(分布族・リンク関数の誤設定)は不確実性定量化の信頼性を損ないます。

ベイズモデル選択:WAICとLOO交差検証

複数のベイズモデルを比較するための情報量基準として、WAIC(Widely Applicable Information Criterion)とLOO交差検証が用いられます。WAICはAICの完全ベイズ拡張であり

$$\mathrm{WAIC} = -2\left(\mathrm{lppd} – p_\mathrm{WAIC}\right)$$

と定義されます。lppd(対数事後予測密度の和)は $\sum_i \log \frac{1}{S}\sum_s p(y_i \mid \beta^{(s)})$ で計算され、$p_\mathrm{WAIC}$ は有効パラメータ数として機能するモデル複雑度ペナルティです。

LOO-CV(Leave-One-Out Cross-Validation)の期待対数予測密度は

$$\mathrm{elpd}_\mathrm{LOO} = \sum_{i=1}^{n} \log p(y_i \mid y_{-i})$$

と定義されます。各 $p(y_i \mid y_{-i})$ の計算には $n$ 回の再推定が必要ですが、PSIS-LOO(Pareto平滑化重点サンプリングによるLOO近似)は既存のMCMCサンプルから効率的に近似します。重点サンプリング重みにPareto分布をフィッティングして安定化させます。

Pareto $k$ 診断は各観測点のLOO推定の信頼性を評価します。$k > 0.7$ の観測点はLOO推定が不安定であり、moment matchingによる補正または当該観測点の個別再推定が対処法として採用されます。DIC(Deviance Information Criterion)はパラメータ点推定に依存するため多峰分布や不規則モデルでは問題が生じますが、WAICとLOO-CVはこの問題を回避します。

WAICはデータがexchangeable(観測間の条件付き独立性)であることを前提とします。PSIS-LOOは Pareto $k < 0.7$ による信頼性確認が必要です。小標本ではWAICとLOO-CVの統計的変動が大きくなります。時系列・空間相関・階層データではexchangeability仮定が破れ、LOO-CVの適用には注意が必要です。

WAICとPSIS-LOO-CVによるモデル比較

(Fig3. WAICとPSIS-LOO-CVによる事前分布の違いによるモデル比較(elpd ± 標準誤差))

疫学への応用:コホート研究でのリスク因子分析と不確実性定量化

疫学コホート研究では感染症発症リスク因子の推定にベイズロジスティック回帰が適用されます。応答変数を発症有無 $y_i \in \{0, 1\}$、共変量ベクトルを $x_i$ とすると、リスク因子 $x_j$ の効果は事後オッズ比 $\exp(\beta_j)$ の事後分布として得られます。その95%信用区間は「$\exp(\beta_j)$ が95%の確率でこの区間に含まれる」と解釈され、頻度論の漸近的信頼区間と異なり有限標本でも確率的解釈が成立します。

小規模コホート($n < 200$)での稀なイベントでは完全分離問題が生じ、MLEが発散することがあります。弱情報事前分布 $\beta_j \sim N(0,\, 2.5^2)$ を設定することでこの発散を正則化的に回避できます。Firth補正ロジスティック回帰も完全分離に対処しますが、ベイズ枠組みでは完全な事後分布が得られるため不確実性の定量化が可能です。

小標本での事後予測分布はMLE+漸近正規近似より広い不確実性区間を提供し、点推定への過度な依存を回避します。多施設コホートでは施設効果を階層ベイズモデルで表現する拡張が自然に動機付けられ、施設間の変動とその推定精度を同時にモデル化できます。

ベイズロジスティック回帰の事後分布とMLE比較

(Fig4. ベイズロジスティック回帰における回帰係数の事後分布とMLE点推定の比較(疫学コホートシミュレーション))

観測の条件付き独立性(コホート内個人の独立性仮定)と、事前分布の疫学的妥当性(専門知識・先行研究との整合性確認)が前提として必要です。大規模コホートデータ($n > 10{,}000$)ではMCMCの計算コストが現実的制約となり、Laplace近似(INLA)や変分推論が代替として採用されます。事前分布の選択根拠の透明性と感度分析の実施は査読・規制要件となることがあります。頻度論GLMと比較したソフトウェア実装の複雑さと学習コストも考慮が必要です。

Popular Articles