Top 5 This Week

関連記事

2. 指数型分布族:GLMの数理的基盤

- 本サイト運営者のサービスの紹介 -

指数型分布族の定義と正準形式

指数型分布族は、GLM(一般化線形モデル)の確率的基盤を構成する分布のクラスです。GLMは確率分布・線形予測子・リンク関数の三要素から構成されますが、確率分布の選択肢として指数型分布族を採用することで、期待値の推定・パラメータ推定理論・モデル比較に統一的な数理的枠組みが与えられます。指数型分布族は、正規線形モデルが仮定する正規分布を特殊ケースとして包含しながら、二項・ポアソン・ガンマなど多様な応答変数の分布を同一の構造で扱います。

確率密度関数または確率質量関数が次の正準形式で表現される分布を指数型分布族といいます。

$$
f(y;\,\theta,\,\phi) = \exp\!\left(\frac{y\theta – b(\theta)}{a(\phi)} + c(y,\,\phi)\right)
$$

この正準形式は4つの構成要素から成ります。自然パラメータ$\theta$は分布の位置・形状を制御する中心的なパラメータです。累積量母関数$b(\theta)$は期待値と分散を生成する関数であり、指数族の理論的中核を担います。分散パラメータ$\phi$を介したスケーリング関数$a(\phi)$は分散の大きさを調整します。補助項$c(y,\,\phi)$は正規化定数の役割を果たし、自然パラメータ$\theta$に依存しません。正準形式における観測値$y$は$\theta$に関する十分統計量として機能します。

自然指数族は$a(\phi) = 1$と固定した指数型分布族の特殊ケースであり、より制約の強い部分クラスを形成します。指数型分布族は自然指数族を包含しますが、分散パラメータ$\phi$の導入によって過分散や正規分布など幅広い分布を一元的に扱えます。

正準形式が成立するためには、対象の分布が上記の形式で表現可能であること、および補助項$c(y,\,\phi)$が自然パラメータ$\theta$に依存しないことが前提条件となります。

ただし、すべての確率分布が指数型分布族に属するわけではありません。コーシー分布やスチューデントの$t$分布は正準形式に変換できず、指数族の枠外に位置します。また、任意の分布が指数族に属するかどうかは分布ごとに個別に確認する必要があり、一般的な自動化の手続きは存在しません。

平均・分散と累積量母関数の関係

累積量母関数$b(\theta)$は指数族における期待値と分散を決定する中核的な関数です。対数尤度の$\theta$に関する一次偏微分(スコア関数)の期待値がゼロとなる条件から、次の恒等式が導出されます。

$$
E[Y] = b'(\theta)
$$

すなわち$b(\theta)$の$\theta$に関する一次微分が応答変数$Y$の期待値$\mu$に等しくなります。さらにスコア関数の分散がFisher情報量に等しいという性質から、次の分散の表現が得られます。

$$
\mathrm{Var}[Y] = a(\phi)\cdot b”(\theta)
$$

ここで$b”(\theta)$は$b(\theta)$の二次微分です。平均$\mu = b'(\theta)$と自然パラメータ$\theta$の変換関係を通じて$b”(\theta)$を$\mu$の関数として表したものが分散関数$V(\mu) = b”(\theta)$です。自然パラメータ$\theta$から平均パラメータ$\mu$への変換はこの関係により一対一に定まります。分散関数は各分布の平均-分散関係を特徴付ける指標であり、GLMにおける分布選択の基準として機能します。スケールパラメータ$a(\phi)$は分散の絶対的な大きさを調整しますが、平均-分散の形状的な関係はすべて$V(\mu)$のみによって決定されます。

スコア関数の期待値がゼロであること、すなわち$E[\partial \log f/\partial \theta] = 0$は、指数族においては正準形式から自動的に成立します。Fisher情報量は次の形式で表されます。

$$
\mathcal{I}(\theta) = \frac{b”(\theta)}{a(\phi)}
$$

$b(\theta)$が少なくとも二回微分可能であること(正則性条件)および$b”(\theta) > 0$(分散の正値性)が、上記の関係が成立するための必要条件です。

指数族の枠組みでは平均$\mu$が定まると分散$V(\mu)$も連動して定まり、独立した調整はできません。これが過分散問題の根本的な原因であり、実データへの適用においては重要な制約となります。分散関数の形状は分布によって大きく異なり、以下の図に示す通りです。

指数型分布族の分散関数V(μ)の形状比較:正規(定数)・ポアソン(線形)・二項(二次)・ガンマ(二乗)

(Fig1. 指数型分布族の分散関数 $V(\mu)$:4分布の平均-分散関係の比較)

代表的4分布の指数族表現

正規分布・二項分布・ポアソン分布・ガンマ分布の4つについて、指数族の正準形式への変換を具体的に示します。各分布の自然パラメータ$\theta$と通常のパラメータ($\mu$、$\pi$、$\lambda$)の対応関係、および分散関数$V(\mu)$の形状を導出します。

正規分布$Y \sim N(\mu,\,\sigma^2)$については、$\theta = \mu$、$b(\theta) = \theta^2/2$、$a(\phi) = \sigma^2$となり、$V(\mu) = 1$(定数)です。分散が平均に依存しない点が他の分布との本質的な違いであり、古典的正規線形モデルにおける最小二乗法がこの特殊構造に対応します。

二項分布$Y \sim \mathrm{Binomial}(n,\,\pi)$については、$\theta = \log(\pi/(1-\pi))$、$b(\theta) = \log(1 + e^\theta)$、$a(\phi) = 1/n$となり、$V(\mu) = \mu(1-\mu)$です。自然パラメータはロジット変換に対応し、後述する正準リンク関数であるロジットリンクに直接つながります。

ポアソン分布$Y \sim \mathrm{Poisson}(\lambda)$については、$\theta = \log(\lambda)$、$b(\theta) = e^\theta$、$a(\phi) = 1$となり、$V(\mu) = \mu$です。分散が平均に比例する性質は、カウントデータのモデリングにおける基本的な前提です。

ガンマ分布については、$\theta = -1/\mu$、$b(\theta) = -\log(-\theta)$、$V(\mu) = \mu^2$です。分散が平均の二乗に比例し、変動係数(標準偏差/平均)が一定となる特性を示します。ガンマ分布については、shape/rate パラメータ化と shape/scale パラメータ化のいずれを採用するかによって正準形式の表現が異なるため、文脈に応じたパラメータ化の選択を明示する必要があります。

各分布の定義域は、正規分布が実数全体$(-\infty,\,\infty)$、二項分布が$0$から$n$までの整数$\{0,\,1,\ldots,n\}$、ポアソン分布が非負整数$\{0,\,1,\,2,\ldots\}$、ガンマ分布が正の実数$(0,\,\infty)$です。この定義域の違いが分布選択の実務的な出発点となります。

代表的4分布の確率密度・質量関数の形状:正規・二項・ポアソン・ガンマ

(Fig2. 代表的4分布の確率密度/質量関数の形状(正規・二項・ポアソン・ガンマ))

以下の表に4分布の指数族パラメータをまとめます。分布間を横断的に比較し、各構成要素と正準リンク関数の対応関係を参照できます。

分布 $\theta$(自然パラメータ) $b(\theta)$(累積量母関数) $a(\phi)$(スケールパラメータ) $V(\mu)$(分散関数) 正準リンク $g(\mu)$
正規 $\mu$ $\theta^2/2$ $\sigma^2$ $1$(定数) $\mu$(恒等)
二項 $\log\!\left(\dfrac{\pi}{1-\pi}\right)$ $\log(1 + e^\theta)$ $1/n$ $\mu(1-\mu)$ $\log\!\left(\dfrac{\mu}{1-\mu}\right)$(ロジット)
ポアソン $\log(\lambda)$ $e^\theta$ $1$ $\mu$ $\log(\mu)$(対数)
ガンマ $-1/\mu$ $-\log(-\theta)$ $\phi$ $\mu^2$ $1/\mu$(逆数)

正準リンク関数の導出

GLMでは線形予測子$\eta = \mathbf{x}^\top\boldsymbol{\beta}$と平均パラメータ$\mu$をリンク関数$g$で結びます。自然パラメータ$\theta$と線形予測子$\eta$を等置する、すなわち$\eta = \theta$と設定したとき得られるリンク関数を正準リンク関数といいます。正準リンク関数の定義は次の通りです。

$$
g(\mu) = \theta
$$

ここで$\theta = h(\mu)$は平均$\mu$から自然パラメータ$\theta$への変換であり、正準リンク関数は各分布に対して一意に定まります。4つの分布に対応する正準リンク関数は次のように導出されます。正規分布では$g(\mu) = \mu$(恒等リンク)、二項分布では$g(\mu) = \log(\mu/(1-\mu))$(ロジットリンク)、ポアソン分布では$g(\mu) = \log(\mu)$(対数リンク)、ガンマ分布では$g(\mu) = 1/\mu$(逆数リンク)です。

正準リンクを使用すると、スコア方程式が十分統計量との結合によって簡略化され、数値最適化の計算効率が向上します。これは正準リンクを選択する主要な理論的利点です。リンク関数として採用可能であるための条件は、$\mu$の定義域上での単調性と微分可能性です。

正準リンクと非正準リンクの選択においては、推定効率と解釈可能性のトレードオフが存在します。公衆衛生の文脈ではロジットリンクが定式化するオッズ比よりも、リスク差やリスク比の直接的なモデル化が求められる場面があり、恒等リンクや対数リンクが選択されることがあります。また逆数リンクは$\mu$の定義域下限近傍で負の予測値を生じる可能性があり、実用上は対数リンクへの変更が選択される場合があります。正準リンクが推定上常に最適とは限らず、応用の文脈や解釈の要請に応じた選択が必要です。

4種の正準リンク関数の形状比較:恒等・ロジット・対数・逆数

(Fig3. 4種の正準リンク関数の形状比較(恒等・ロジット・対数・逆数))

十分統計量と指数族の統計的性質

十分統計量とは、パラメータ$\theta$に関する標本の情報をすべて集約する統計量です。Neyman-Fisher の因子分解定理によれば、統計量$T(y)$が$\theta$の十分統計量であるのは、尤度関数が次の形に因子分解できるときです。

$$
L(\theta;\,y) = g\!\left(\theta,\,T(y)\right)\cdot h(y)
$$

指数族の正準形式$\exp((y\theta – b(\theta))/a(\phi) + c(y,\,\phi))$は、$y$と$\theta$の積を含む部分と$\theta$のみを含む部分の積に因子分解できます。したがって観測値$y$自体が$\theta$の最小十分統計量となります。この性質は指数族における推定の効率性の根拠となります。

指数族におけるFisher情報量は次の形式で表されます。

$$
\mathcal{I}(\theta) = \frac{b”(\theta)}{a(\phi)}
$$

Cramér-Rao 下界は、任意の不偏推定量$\hat{\theta}$の分散が$\mathcal{I}(\theta)^{-1}$以上であることを保証します。指数族の最尤推定量は十分統計量$y$の関数となり、Rao-Blackwell 定理の文脈で一様最小分散不偏推定量の候補となります。これは指数族において最尤推定量が持つ効率性の理論的根拠です。

自然パラメータ空間の凸性は、モーメント母関数$M(\theta)$の対数が累積量母関数$b(\theta)$に対応することから確認されます。凸性は数値最適化における計算的安定性と収束性の保証に貢献します。

これらの性質が成立するためには、自然パラメータ空間が内点を持つこと(識別可能性の正則性条件)が必要です。

指数族の正準形式は再パラメータ化によって複数の表現が生じ得るため、表現は一意ではありません。例えばガンマ分布の場合、パラメータ化の選択によって自然パラメータの形が変わります。理論的取り扱いにおいては、どのパラメータ化を基準とするかを明示する必要があります。

バイオ統計における実践:分布選択の枠組み

臨床研究や疫学データへの GLM 適用において、応答変数の性質から適切な指数族分布を選択することは、推定精度と標準誤差の正確性を左右する重要な手順です。分布選択の基本的な枠組みは応答変数の型によって段階的に定まります。連続変数で対称的な分布が想定される場合は正規分布、二値アウトカム(治癒・非治癒など)には二項分布、カウントデータ(有害事象の発生回数など)にはポアソン分布、正の連続変数でゼロを取らない場合(入院日数・血中濃度など)にはガンマ分布が出発点となります。

過分散の初期診断には、経験的な分散/平均比の計算が有効です。Pearson 残差を用いた分散推定量は次の概念式で与えられます。

$$
\hat{\phi} = \frac{1}{n-p}\sum_{i=1}^{n}\frac{(y_i – \hat{\mu}_i)^2}{V(\hat{\mu}_i)}
$$

この値が理論値1を大きく超える場合、選択した指数族分布の等分散前提が成立していないシグナルとなります。適合度の評価には Pearson カイ二乗統計量が参照され、残差の分布形状との照合を通じて分布の適切性を検討します。分布選択の誤りは、回帰係数の推定値だけでなく標準誤差の歪みを通じて統計的検定の第一種過誤率にも影響します。

臨床試験における典型的なユースケースとして、有害事象の発生回数はポアソンモデル($V(\mu) = \mu$)、治癒・非治癒の二値アウトカムは二項モデル($V(\mu) = \mu(1-\mu)$)、入院日数の分布はガンマモデル($V(\mu) = \mu^2$)が選択されます。各分布の正準リンク関数を通じて線形予測子と平均パラメータが結びつけられ、共変量の効果が推定されます。

適切な分布選択が成立するためには、選択した指数族分布が実際のデータ生成過程と整合することおよび各観測が独立であることが前提となります。

バイオ統計データでは患者間の不均一性(frailty)や観察期間のばらつきにより過分散が頻出し、標準的な指数族の等分散前提が成立しない場合が多くあります。また希少事象ではゼロ過剰が生じ、ポアソンモデルの直接適用が困難になります。分布選択は理論的根拠のみに基づくのではなく、適合後の残差診断との併用が実務における標準的な手順です。

指数族の限界と準尤度への接続

古典的正規線形モデルでは応答変数が正規分布に従うことを前提とし、OLS(最小二乗法)によって線形予測子のパラメータが推定されます。指数型分布族への拡張により、非正規の応答変数に対しても最尤推定の統一的な枠組みが適用可能となりました。しかし指数族の枠組みには本質的な限界が存在します。第一に、過分散が存在する場合に分散関数$V(\mu)$の形状が実際のデータと整合しない可能性があります。第二に、ベータ分布のように指数族に属さない分布への直接適用ができません。

これらの限界に対する部分的な解決策として、準尤度の枠組みがあります。準尤度は完全な確率分布の仮定を置かずに、分散関数$V(\mu)$の指定のみで推定を可能にする手法です。準尤度のスコア方程式は次の形式で与えられます。

$$
\frac{\partial Q}{\partial \mu} = \frac{y – \mu}{a(\phi)\,V(\mu)}
$$

この方程式は分布の完全な形を指定することなく、$V(\mu)$の構造のみを利用します。Wedderburn が1974年に準尤度の概念を提案し、指数族の枠組みを超えた推定の可能性を開きました。ポアソン分布の$V(\mu) = \mu$を維持したまま過分散を許容する準ポアソンモデルや、二項分布を基礎とする準二項モデルがこの枠組みの代表的な応用例です。

準尤度モデルと通常の指数族モデルを比較すると、指数族は完全な分布仮定に基づいて最尤推定量が得られるのに対し、準尤度は分布仮定の一部($V(\mu)$の形状)のみを利用する点で柔軟性が高くなります。ただし、準尤度は完全な対数尤度ではないため、AIC(赤池情報量規準)を直接適用することはできず、QIC や拡張された情報量規準の使用が必要となります。また過分散の根本的原因が特定できている場合(例:個体間不均一性)には、負の二項回帰など原因に対応したモデルへの移行が推奨されます。

準尤度モデルは指数族の枠組みを超えた統計モデリングへの橋渡しとなり、Tweedie 分布族・負の二項分布・ゼロ過剰モデルなど後続の手法群への接続点を提供します。

Popular Articles