Top 5 This Week

関連記事

11. 過分散問題:診断と準尤度推定

- 本サイト運営者のサービスの紹介 -

過分散とは何か

ポアソン回帰はカウントデータの統計モデリングにおける基本的な一般化線形モデルです。ポアソン分布の性質として、期待値 $\mu$ と分散が等しいという関係が成立します。

$$\text{Var}(Y) = \mu$$

ポアソン回帰はデフォルトでこの等分散仮定を前提としており、モデルの分散構造に組み込まれています。医療受診回数・交通事故件数・生態調査の個体数など、現実のカウントデータに対してこの仮定を検証せずに適用すると、推定の信頼性が損なわれる場合があります。観測された分散がモデルの想定を超える状態を過分散と定義し、

$$\text{Var}(Y) > \mu$$

と表されます。過分散の程度を定量化するために、分散スケーリングパラメータ $\phi$ を導入します。

$$\text{Var}(Y) = \phi \cdot \mu$$

$\phi > 1$ が過分散の状態に対応し、$\phi = 1$ はポアソン分布の等分散仮定そのものです。$\phi$ は分散膨張係数とも呼ばれ、実際の分散が仮定された分散の何倍になっているかを定量的に示します。

過分散を無視してポアソン回帰を適用した場合、標準誤差が実態より小さく推定されます。標準誤差の過小評価はWald統計量を過大にし、信頼区間を実態より狭くします。その結果、帰無仮説の棄却率が名目有意水準を大幅に超え、統計的に有意でない共変量を有意と判断する第一種過誤率が膨張します。ポアソン回帰はデフォルトで $\text{Var}(Y) = \mu$ を仮定するため、この仮定の検証は分析の基本手順に含まれます。ただし、過分散の存在を確認するだけでは、分散膨張を引き起こす原因メカニズムを特定することはできません。

平均と分散の関係:ポアソン仮定と過分散データの比較

(Fig1. 平均と分散の関係:ポアソン仮定(φ=1)と過分散データ(φ>1)の比較)

過分散の原因:ゼロ過剰・不均一性・クラスタリング

過分散は単一のメカニズムによって引き起こされるものではなく、異なるデータ生成プロセスから発生します。主要な原因として、ゼロ過剰、観測されない不均一性、クラスタリングの3種類が区別されます。それぞれの原因は異なる分散構造を持ち、適切な対処モデルが異なります。

ゼロ過剰は、ポアソン分布から期待される頻度を超えてゼロが観測される状態です。ゼロには2種類あります。対象カテゴリに属する個体が原理的に存在しない「構造ゼロ」と、個体は存在するが観測されなかった「標本ゼロ」です。この2種類のゼロの混在がポアソン仮定と実データの乖離を引き起こします。ゼロ過剰混合モデルでは、確率 $\pi$ でゼロのみを生成する構造的プロセスと、確率 $1 – \pi$ でポアソン分布に従うカウントプロセスを組み合わせて確率質量関数を構成します。この混合構造によりゼロが多く発生し、分散がポアソン分布の仮定を超えることになります。

観測されない不均一性は、モデルに含まれない潜在変数が観測単位ごとのポアソン率を変動させることによって生じます。各観測単位のポアソン率 $\lambda_i$ がガンマ分布に従う潜在変数として変動すると仮定すると、$\lambda_i$ を積分することで得られる周辺分布は負の二項分布に導かれます。この混合プロセスにより、分散は $\mu + \mu^2/\theta$ という形で平均に対して二次的に増加し、ポアソン分布の等分散仮定を超えます。個体差が大きい生物データや、地域特性の異質性が強い地理データでこのメカニズムが顕著に現れます。

クラスタリングは、同一クラスター内の観測がポアソン回帰の独立仮定に反して正の相関を持つ場合に発生します。同一調査地点の反復測定や同一世帯内のイベントでは、共通の潜在的条件によって観測値が類似し、カウントの共変動が全体の分散を膨張させます。クラスター内の相関が強いほど、見かけの分散は大きくなります。

実際のデータでは複数の原因が混在しており、単一の原因への帰属が困難な場合があります。原因の特定が不明確な場合は、分散の増加パターンを確認した上で複数のモデルを比較することが必要です。

原因 メカニズム 代表的なデータ例 推奨対処モデル
ゼロ過剰 構造ゼロとカウントゼロの混在による確率質量のゼロへの集中 非喫煙者を含む喫煙本数、非受診者を含む医療受診回数 ゼロ過剰ポアソン(ZIP)・ゼロ過剰負の二項
観測されない不均一性 潜在変数によるポアソン率の変動(ポアソン-ガンマ混合から負の二項分布が導出される) 個体差のある動物の観察個体数、地域特性が異質な事故件数 負の二項回帰
クラスタリング・相関 クラスター内観測の非独立性によるカウントの共変動 同一地点の反復測定カウント、同一世帯のイベント数 準ポアソン・混合効果ポアソン

過分散の診断:Pearsonカイ二乗統計量と φ 推定

過分散の定量的診断には、ポアソン回帰を当てはめた後のPearson残差に基づくカイ二乗統計量が用いられます。Pearson残差は、観測値 $y_i$ と予測値 $\hat{\mu}_i$ の差を $\hat{\mu}_i$ の平方根で標準化したものです。Pearsonカイ二乗統計量はこれらの二乗和として定義されます。

$$\chi^2 = \sum_{i=1}^{n} \frac{(y_i – \hat{\mu}_i)^2}{\hat{\mu}_i}$$

帰無仮説(ポアソン分布が正しく指定されている)の下では、このカイ二乗統計量は漸近的に自由度 $n – p$ のカイ二乗分布に従います。ここで $n$ は観測数、$p$ はモデルのパラメータ数です。この漸近近似はサンプルサイズが十分に大きい場合に妥当であり、小サンプルや期待度数が小さいセルが存在する場合にはカイ二乗近似の精度が低下します。

分散スケーリングパラメータ $\phi$ の推定量は次式で定義されます。

$$\hat{\phi} = \frac{\chi^2}{n – p}$$

ポアソン分布が成立する場合、期待値は $E[\chi^2] = n – p$ となるため $\hat{\phi} \approx 1$ となります。$\hat{\phi} \gg 1$ は過分散の指標として用いられ、実用的には $\hat{\phi} > 2$ が実質的な過分散の目安となります。$\hat{\phi}$ の値は準ポアソンモデルにおいて標準誤差の修正量を決定します。ポアソン回帰の標準誤差を $\sqrt{\hat{\phi}}$ 倍することで、過分散を考慮した修正後の標準誤差が得られます。$\hat{\phi}$ はPearsonカイ二乗統計量を利用するため、極端な外れ値の影響を受けやすい点に注意が必要です。また、$\hat{\phi}$ の大きさは過分散の程度を示すものであり、その原因を識別するものではありません。

ポアソン回帰のPearson残差プロット

(Fig2. ポアソン回帰のPearson残差プロット:過分散係数 φ̂ の推定)

準ポアソンモデルと準尤度の理論的基盤

過分散への対処として、準尤度に基づく推定枠組みが広く用いられます。準尤度は、分布形を完全に特定することなく、条件付き平均と分散の関係のみを仮定して推定を行う手法です。準ポアソンモデルでは分散関数を

$$V(\mu) = \phi \cdot \mu$$

と設定し、$\phi$ を推定すべき分散パラメータとして扱います。この設定の下での準尤度スコア方程式は次式で表されます。

$$\sum_{i=1}^{n} \frac{y_i – \mu_i}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i} \cdot x_{ij} = 0 \quad (j = 1, \ldots, p)$$

この方程式はポアソン回帰の尤度スコア方程式と同一の形式を持ちます。そのため、準ポアソンの係数推定量はポアソン最尤推定量と数値的に同値になります。修正されるのは標準誤差だけであり、係数 $\hat{\beta}_j$ の点推定値はポアソン回帰と変わりません。標準誤差はポアソン回帰の推定値を $\sqrt{\hat{\phi}}$ 倍することで修正され、この修正後の標準誤差に基づいてWald統計量・信頼区間・予測区間が算出されます。

準ポアソン推定の妥当性には2つの前提が必要です。第一に、平均-分散関係 $\text{Var}(Y) = \phi \cdot \mu$ が正しく設定されていることです。第二に、スコア方程式が一致推定量を与えるためには、条件付き平均の定式化が正しいことが必要です。分散の誤特定に対してロバストな標準誤差を提供するサンドイッチ推定量(Huber-White推定量)も同様の問題意識から提案されていますが、準尤度とは異なる仮定体系に基づくため、適用場面の判断は個々のデータ構造に依存します。

準尤度は完全な対数尤度関数を持たないため、赤池情報量規準(AIC)およびベイズ情報量規準の計算ができません。モデル比較が必要な場合には、準赤池情報量規準(QAIC)などの代替指標が用いられます。また、$\hat{\phi}$ の推定にPearsonカイ二乗を使用するため、極端な外れ値が存在する場合に $\hat{\phi}$ の推定が不安定になる可能性があります。

生態学データへの応用:鳥類個体数調査の事例

特定地域における鳥類の定点調査データは、過分散が発生しやすい典型的なカウントデータの一例です。鳥類個体数調査では、植生タイプ・地形・水系の差異などの生息地異質性や、種の群れ行動によって、同一の調査条件下でも調査地点間の個体数変動が大きくなります。さらに、採集バイアス・季節変動・空間的な生息地異質性が複合的に作用するため、過分散の原因を単一のメカニズムに帰属することは一般に困難です。

調査地点・季節・植生タイプを共変量とするポアソン回帰を当てはめた結果として $\hat{\phi} \approx 3.5$ が得られた場合、標準誤差は $\sqrt{3.5} \approx 1.87$ 倍に拡大されます。係数の点推定値はポアソン回帰と同一であるため、率比は $\exp(\hat{\beta})$ として同様に算出されます。しかし、$\hat{\phi}$ による修正を加えた95%信頼区間は、修正前の区間に比べて約1.87倍広くなります。過分散を無視したポアソン回帰では信頼区間が過度に狭く算出されるため、実際には統計的に有意でない共変量が有意と判断される第一種過誤の膨張が生じます。

準尤度は分散膨張に対して標準誤差を事後的に修正する対症療法的な手法です。フィールドデータにおける過分散の根本原因(生息地の空間的異質性・群れ行動等)を除去するものではなく、複数の原因が重複している場合には準尤度による対処が適切かどうかを分散構造の仮定に照らして評価する必要があります。

準ポアソン・負の二項・ポアソンの比較と選択基準

過分散への対処として、準ポアソンモデルと負の二項回帰が主要な選択肢となります。両者の本質的な違いは分散が平均に対してどのように増加するかという構造にあります。準ポアソンでは

$$\text{Var}(Y) = \phi \cdot \mu$$

と分散が $\mu$ に対して線形に増加します。一方、負の二項回帰では形状パラメータ $\theta > 0$ を用いて

$$\text{Var}(Y) = \mu + \frac{\mu^2}{\theta}$$

と定義され、分散が $\mu$ に対して二次的に増加します。$\theta \to \infty$ の極限でポアソン分布に収束し、$\theta$ が小さいほど過分散の程度が強くなります。この分散構造の差異は $\hat{\phi}$ の推定値と予測区間の形状に影響し、平均が大きい領域での予測区間の幅が両モデルで異なります。

モデル選択の実際的な基準として、分散の増加パターンが平均に対して線形に近い場合は準ポアソンが適しています。平均が大きくなるほど過分散が加速する傾向がある場合は負の二項回帰の採用が妥当です。過分散が軽度($\hat{\phi} < 3$ 程度)であれば準ポアソンで対処可能ですが、過分散が重度の場合や構造ゼロの存在が疑われる場合にはゼロ過剰ポアソン(ZIP)や負の二項回帰を検討します。

推定法の面では、負の二項回帰は完全な尤度関数を持つため最尤推定が可能であり、赤池情報量規準(AIC)によるモデル比較が実施できます。準ポアソンでは尤度が定義されないためAICは適用できず、QAICなどの代替指標が必要です。ゼロ過剰ポアソン(ZIP)も最尤推定が可能ですが、構造ゼロの仮定が実質的に妥当かどうかをデータ生成プロセスの理解に基づいて判断する必要があります。準ポアソンと負の二項回帰の選択は最終的に分散の増加パターンへの仮定に依存するため、データのみから一意に決定できない場合があります。

準ポアソンと負の二項回帰の予測区間比較

(Fig3. 準ポアソンと負の二項回帰の予測区間比較:分散構造の違いによる予測幅の差)

モデル 分散構造 推定法 AIC 適用 φ > 1 への対応
ポアソン回帰 $\text{Var}(Y) = \mu$ 最尤推定 可能 対応しない(過分散を無視する)
準ポアソン $\text{Var}(Y) = \phi \cdot \mu$ 準尤度推定 不可(QAIC を使用) 標準誤差を $\sqrt{\hat{\phi}}$ 倍に修正する
負の二項回帰 $\text{Var}(Y) = \mu + \mu^2/\theta$ 最尤推定 可能 二次増加の分散構造として明示的にモデル化する

Popular Articles