Top 5 This Week

関連記事

8. GLMのモデル適合診断:逸脱度と残差分析

- 本サイト運営者のサービスの紹介 -

GLM診断の枠組みと飽和モデルの概念

OLS(最小二乗法)を用いた線形回帰では、残差の正規性と等分散性を前提として診断が実施されます。一方、一般化線形モデルでは応答変数が二項分布・ポアソン分布・ガンマ分布等に従う場合が多く、正規性を前提とした診断ツールをそのまま適用することは理論的に不適切です。GLMの診断は、尤度に基づく指標を軸として構成されます。

GLM診断の基軸概念が飽和モデルです。飽和モデルとは、各観測値 $y_i$($i = 1, \ldots, n$)に対して独立したパラメータ $\mu_i$ を割り当てる、パラメータ数がデータ点数 $n$ に等しいモデルです。飽和モデルはデータを完全に再現し、達成可能な対数尤度の上限として機能します。指数型分布族の対数尤度は一般形で

$$\ell(\boldsymbol{\mu}; \mathbf{y}) = \sum_{i=1}^{n} \ell_i(\mu_i; y_i)$$

と記述されます。飽和モデルの対数尤度 $\ell(\mathbf{y}; \mathbf{y})$ はこの上限値を与え、あてはめモデルの対数尤度との差が診断指標の核心となります。

帰無モデルとは、すべての観測に対して切片のみを用いる最も単純なモデルです。残差逸脱度はあてはめモデルと飽和モデルの対数尤度差に基づき、帰無逸脱度は帰無モデルと飽和モデルの差に基づきます。帰無逸脱度と残差逸脱度の差は、投入した共変量の説明力として解釈されます。

OLS診断との根本的相違点は正規性仮定の非適用にあります。GLMでは分布族固有の分散関数が存在し、残差の振る舞いは各分布族に依存します。正規QQプロットや等分散性検定のような正規分布前提のツールはGLMでは理論的根拠を欠き、逸脱度・分布固有の残差・尤度比が診断の主軸となります。

逸脱度に基づく診断は漸近近似に依存するため、小標本では精度が低下します。標本サイズが不十分な場合、漸近$\chi^2$分布への収束が保証されず、診断結果の解釈には注意が必要です。

逸脱度の数理的定義と統計的性質

逸脱度 $D$ は、飽和モデルの対数尤度とあてはめモデルの対数尤度の差の2倍として定義されます。

$$D = 2\left[\ell(\mathbf{y}; \mathbf{y}) – \ell(\hat{\boldsymbol{\mu}}; \mathbf{y})\right]$$

$D \geq 0$ が常に成立し、$D = 0$ はあてはめモデルが飽和モデルと一致することを意味します。診断では三者分解が基本となります。帰無逸脱度 $D_0$(帰無モデルと飽和モデルの差)はデータの全変動を表し、残差逸脱度 $D_1$(あてはめモデルと飽和モデルの差)はモデルで説明されない残余の逸脱を表します。$D_0 – D_1$ は共変量によって説明された逸脱度であり、疑似 $R^2$ の構成に用いられます。

各分布族における逸脱度の具体形は次の通りです。ポアソン分布では $D = 2\sum_i \left[y_i \log(y_i/\hat{\mu}_i) – (y_i – \hat{\mu}_i)\right]$、グループ化二項データでは $D = 2\sum_i \left[y_i \log(y_i/\hat{\mu}_i) + (n_i – y_i)\log((n_i – y_i)/(n_i – \hat{\mu}_i))\right]$、正規分布では $D = \sum_i (y_i – \hat{\mu}_i)^2/\sigma^2$ となり残差平方和に帰着します。

大標本条件のもとで、残差逸脱度は自由度 $n – p$ の$\chi^2$分布に漸近します。

$$D \xrightarrow{d} \chi^2(n – p)$$

逸脱度の加法性により、ネストしたモデル間の逸脱度差 $\Delta D = D_0 – D_1$ も自由度 $\Delta p$ の$\chi^2$分布に漸近し、尤度比検定として利用されます。AIC(赤池情報量規準)と逸脱度の関係は次式で与えられます。

$$\text{AIC} = D + 2p$$

AICはモデルの適合度と複雑さのバランスを評価する指標であり、逸脱度を基礎としてパラメータ数ペナルティを加えた形式をとります。

逸脱度の$\chi^2$近似が成立するには各セルの期待度数が十分に大きい大標本条件が必要です。二項回帰で個人レベルのバイナリデータを用いる場合、各観測のセル数が1であるため期待度数の安定性が保証されず、$\chi^2$近似は成立しません。ガンマ回帰等の連続応答分布では分散パラメータの推定が逸脱度の解釈に影響するため、$\chi^2$分布への参照とは異なる考慮が必要となります。

GLM残差の種類と診断的役割

GLMでは複数種類の残差が定義されており、それぞれ異なる診断的役割を担います。Pearson残差は観測値と適合値の差を分散関数の平方根で標準化したものです。

$$r_i^P = \frac{y_i – \hat{\mu}_i}{\sqrt{V(\hat{\mu}_i)}}$$

ここで $V(\hat{\mu}_i)$ は分布族の分散関数であり、ポアソン分布では $V(\mu) = \mu$、二項分布では $V(\mu) = \mu(1-\mu)/n_i$ となります。正しく特定されたモデルでは $\text{E}[r_i^P] \approx 0$、$\text{Var}[r_i^P] \approx 1 – h_{ii}$ となります。Pearson残差の平方和がPearsonカイ二乗統計量を構成します。

逸脱度残差は、各観測が逸脱度全体に与える寄与の符号付き平方根です。

$$d_i = \text{sign}(y_i – \hat{\mu}_i)\sqrt{2\left[\ell_i(y_i; y_i) – \ell_i(\hat{\mu}_i; y_i)\right]}$$

$d_i$ の平方和は残差逸脱度 $D$ に等しく、$\text{E}[d_i] \approx 0$、$\text{Var}[d_i] \approx 1 – h_{ii}$ の性質をもちます。Pearson残差より正規分布への近似精度が高いとされ、残差プロットには逸脱度残差の使用が一般的です。

外部スチューデント化残差は、ハット行列の対角要素 $h_{ii}$(レバレッジ値)を用いて標準化した残差です。

$$r_i^S = \frac{d_i}{\sqrt{1 – h_{ii}}}$$

大標本条件のもとでスチューデント化残差は標準正規分布に漸近します。$|r_i^S| > 2$ または $|r_i^S| > 3$ の観測が外れ値候補として識別されます。

IRLS(反復重み付き最小二乗法)における作業残差は、各反復ステップでの線形化応答の残差であり、正規線形モデルとの接続を可能にします。収束後の作業残差は等分散・正規性を前提とした補助的な診断に利用されることがあります。

残差プロットでは横軸に線形予測子の推定値 $\hat{\eta}_i$、縦軸に逸脱度残差をとります。良好なあてはめでは残差が無作為に散布し、曲線状のパターンは共変量の非線形成分の見落とし、ファンネル状のパターンは分散構造の誤設定を示唆します。QQプロットにより逸脱度残差の正規近似の程度を視覚的に確認できます。

Deviance residual plots comparing well-fitted and misspecified logistic regression models

(Fig1. 良好なあてはめと誤設定モデルにおける逸脱度残差プロットの比較)

QQ plots of deviance residuals for large sample and small sample

(Fig2. 大標本と小標本における逸脱度残差のQQプロット比較)

二項分布の個人レベルデータでは各応答が0または1に離散化されるため、残差に非対称性と離散性が生じ、残差診断の解釈が複雑になります。過分散が存在する場合、残差の実際の分散は理論値を超えることがあります。この点の詳細は過分散モデルの議論(02_11_Overdispersion)に接続されます。

残差の種類 定義の概要 スケール・分布 主な使用目的 注意点
Pearson残差 $(y_i – \hat{\mu}_i)/\sqrt{V(\hat{\mu}_i)}$ 大標本で近似正規分布。期待値0、分散 $\approx 1-h_{ii}$。平方和がカイ二乗統計量に対応 過分散の検出、分散パターンの確認 個人レベル二項データでは離散性の影響を受ける
逸脱度残差 個別逸脱寄与の符号付き平方根 大標本で近似正規分布。期待値0、分散 $\approx 1-h_{ii}$。平方和が残差逸脱度に等しい 外れ値検出、線形予測子に対する残差プロット 小標本では正規近似精度が低下する
外部スチューデント化残差 逸脱度残差をレバレッジ値 $h_{ii}$ で調整した標準化残差 $d_i/\sqrt{1-h_{ii}}$ 大標本で標準正規分布に漸近。期待値0、分散1 外れ値・影響点の検出($|r_i^S|>2$ が目安) ハット行列の計算が必要であり実装負担がある
作業残差 IRLSの各反復における線形化応答の残差 収束後に正規分布前提の補助的解釈が可能 IRLS収束確認、正規線形モデルとの類推的診断 推定値依存であり反復ごとに変化する

適合度検定:Pearsonカイ二乗とHosmer-Lemeshow検定

モデル全体の適合度を評価するための形式的検定として、Pearsonカイ二乗検定とHosmer-Lemeshow検定が用いられます。Pearsonカイ二乗統計量は次式で定義されます。

$$X^2 = \sum_{i=1}^{n} \frac{(y_i – \hat{\mu}_i)^2}{V(\hat{\mu}_i)}$$

すなわちPearson残差の平方和です。帰無仮説は「現在のモデルが正しい」であり、この帰無仮説のもとではデータは指定した分布族に従います。大標本条件のもとで $X^2$ は自由度 $n – p$ の$\chi^2$分布に漸近します。Pearsonカイ二乗の漸近$\chi^2$近似が成立するには各セルの期待度数が5以上であることが目安とされており、グループ化データへの適用が適切です。個人レベルのバイナリデータではこの条件が満たされません。

ロジスティック回帰などの個人レベルデータに対してはHosmer-Lemeshow検定が広く用いられます。予測確率 $\hat{\pi}_i$ でソートされた観測を $g$ 群(通常 $g = 10$ のデシル)に分割し、各群 $k$ における観測イベント数 $O_{1k}$、群サイズ $n_k$、群内平均予測確率 $\bar{p}_k$ を用いて次の統計量を計算します。

$$\hat{C} = \sum_{k=1}^{g} \frac{(O_{1k} – n_k\bar{p}_k)^2}{n_k\bar{p}_k(1-\bar{p}_k)}$$

$\hat{C}$ は自由度 $g – 2$ の$\chi^2$分布に近似的に従います。また、ネストモデル間の逸脱度差 $\Delta D = D_0 – D_1$ を尤度比検定として用いる方法は、次記事02_09_GLM_Model_Selectionでモデル選択の文脈で詳述されます。

グループ化データでは期待度数の安定性が確保され、Pearsonカイ二乗の漸近近似精度が高まります。個人レベルデータではHosmer-Lemeshow検定が一般に推奨されますが、グループ数 $g$ の選択によってp値が変化するため解釈に注意が必要です。

Hosmer-Lemeshow検定の限界として、グループ分割の方法と $g$ の選択に依存して結果が異なる点があります。適合度検定を通過したことはモデルの正しさを保証しません。大標本では実質的に無視できる程度のモデル誤設定でも検定が棄却される傾向があり、小標本では実質的な誤設定を見逃す可能性があります(第二種の過誤)。連続共変量が多数ある場合、デシル分割の有効性が低下し適合度の評価が困難になります。

影響点診断:ハット行列とCook距離のGLM拡張

GLMの影響点診断では、観測点の影響を三類型で評価します。レバレッジは共変量空間での外れ具合を指します。$Y$ の外れ値は応答変数の観測値があてはめ値から大きく離れている点です。影響点はレバレッジと外れ具合が組み合わさり、パラメータ推定値を大きく変動させる観測点です。

GLMのハット行列 $H$ は、IRLS(反復重み付き最小二乗法)の作業重み行列 $W$(各反復で更新される対角行列)を用いて定義されます。

$$H = W^{1/2} X (X^T W X)^{-1} X^T W^{1/2}$$

対角要素 $h_{ii}$ はレバレッジ値であり、$h_{ii} \in [0, 1]$ の範囲をとります。閾値 $2p/n$ を超える観測が高レバレッジ点として識別されます。作業重み $w_i = V(\hat{\mu}_i)/[g'(\hat{\mu}_i)]^2$($g’$ はリンク関数の導関数)が $H$ に組み込まれるため、GLMのレバレッジは分布族とリンク関数に依存します。インデックスプロットにより $h_{ii}$ を観測番号に対してプロットし、高レバレッジ点を視覚的に特定できます。

GLMのCook距離は、観測 $i$ を除いた場合のパラメータ推定値の変化量に基づいて定義されます。

$$C_i = \frac{(\hat{\boldsymbol{\beta}} – \hat{\boldsymbol{\beta}}_{(i)})^T (X^T W X) (\hat{\boldsymbol{\beta}} – \hat{\boldsymbol{\beta}}_{(i)})}{p}$$

ここで $\hat{\boldsymbol{\beta}}_{(i)}$ は観測 $i$ を除外した場合の推定値です。閾値として $4/n$ が慣習的に用いられます。影響点を除外した場合の推定値変化の大きさが評価の基準となります。各パラメータへの個別影響指標であるDFBETASは、観測 $i$ の除外が各 $\hat{\beta}_j$ に与える標準化された変化量であり、詳細は02_22_Influence_Diagnostics_in_GLMで扱います。

Cook's distance index plot for logistic regression with flagged influential observations

(Fig3. ロジスティック回帰モデルにおけるCook距離のインデックスプロット)

マスキング効果として、複数の影響点が互いを隠蔽し個別の除外分析では検出できない問題があります(詳細は02_22)。小標本では閾値 $4/n$ の不安定性が高まります。また、IRLSにおいて重み行列 $W$ が推定値依存であるため、影響点診断は反復的な性格をもちます。

医療統計への実践的適用とOLS診断との対比

二項ロジスティック回帰による心疾患発症リスク予測モデルを例として、診断ワークフローの推奨順序を示します。

  1. 逸脱度の確認として、残差逸脱度と帰無逸脱度の差により共変量の説明力を評価し、残差逸脱度と自由度の比較でモデル全体の適合を概観します。
  2. 残差プロットとして、逸脱度残差を線形予測子の推定値に対してプロットし、非線形パターン・外れ値の存在を確認します。
  3. 適合度検定として、Hosmer-Lemeshow検定によりリスク層別の校正を評価します。
  4. 影響点診断として、Cook距離のインデックスプロットにより、パラメータ推定に大きな影響を与える患者を特定します。

OLSとGLMの診断比較として、OLSでは正規性・等分散性・独立性の三仮定を残差により診断します。GLMでは正規性仮定は存在せず、各分布族の分散関数が分散構造を規定します。等分散性の概念はGLMでは過分散として扱われ、独立性の仮定は両者に共通します。ポアソン回帰における逸脱度診断では、分散が平均に等しいポアソン分布の仮定が逸脱度を通じて検証されます。残差逸脱度の自由度比が1を大幅に超える場合は過分散の存在を示唆します。

ロジスティック回帰固有の仮定として、logitスケールでの線形性と観測の独立性が挙げられます。logitスケールでの線形性は、連続共変量を含む残差プロットにより検証されます。クラスター構造をもつ医療データ(施設内患者の集積等)では独立性仮定の確認が特に重要です。

診断結果に基づくモデル改善の方向性として、残差プロットに曲線状パターンが観察された場合は共変量変換または多項式項の追加が検討されます。過分散が検出された場合は準二項モデルへの移行が選択肢となります。残差に系統的なパターンが残る場合は交互作用項の追加が考えられます。

医療データでは、統計的に高い影響力をもつ観測点が真の異常値ではなく重症患者や特殊病態の症例である可能性があります。統計的診断のみによる除外は医学的判断なしには不適切であり、影響点の除外には医学的・ドメイン的根拠が必要です。診断ツールはモデル誤設定を示唆する証拠を提供しますが、正しいモデルを特定することはできません。統計的診断はドメイン知識と組み合わせてはじめて意味をもちます。

Popular Articles