Top 5 This Week

関連記事

1. 一般化線形モデル入門:線形回帰からの拡張と統一的枠組み

- 本サイト運営者のサービスの紹介 -

GLMの誕生と動機

統計モデリングの歴史において、1972年に提唱された一般化線形モデルは、それ以前に別々の理論体系として発展してきた複数の回帰手法を統一的な枠組みで整理したものです。NelderとWedderburn は、正規分布を前提とした線形回帰だけでなく、2値応答・カウント応答・連続正値応答といった多様なデータ型に対しても、単一の理論構造のもとで一貫したパラメータ推定・仮説検定・モデル選択が行えることを示しました。

この枠組みの中核をなす概念が線形予測子 $\eta$ です。$p$ 個の説明変数と係数ベクトル $\boldsymbol{\beta}$ によって構成される線形予測子は、行列形式で

$$\eta = \mathbf{X}\boldsymbol{\beta}$$

と記述されます。この線形構造を、応答変数の期待値と接続する仕組みを加えることで、確率分布の種類に依存しない汎用的な回帰モデルが実現されます。

統一的枠組みがもたらす実践的な利点は、分析手順の共通化にあります。臨床試験での入院の有無(2値)、疫学調査での有害事象発生件数(カウント)、材料試験での破断荷重(連続正値)といった性質の異なる応答変数に対して、同一の推定アルゴリズムと診断手順を適用できます。これにより、データ型ごとに独立した手法を習得する負担が軽減され、モデル選択の基準が整理されます。

線形回帰の限界と拡張の必要性

通常最小二乗法(以下OLS)が有効に機能するためには、正規分布・均一分散・線形性という三つの仮定が必要です。しかし実際のデータには、これらの仮定を満たさない状況が多く存在します。

第一に、2値応答への適用問題があります。患者の「入院あり・なし」を0/1で表したデータにOLSを適用すると、予測値が確率の定義域である $[0, 1]$ を逸脱し、負値や1を超える値が生じます。確率として解釈できない予測値は、推論の信頼性を根本から損ないます。

第二に、等分散仮定の違反があります。カウントデータではポアソン分布が示すように、分散が平均に比例する構造を持ちます。また二項分布では、分散が $\mu(1-\mu)$ に依存して平均とともに変化します。OLSが想定する均一分散はこれらのデータでは成立せず、係数の標準誤差が系統的に不正確になります。

第三に、正規性仮定の違反があります。カウントデータや2値データの分布は、OLSが前提とする正規分布から著しく逸脱しており、残差の正規性が保証されません。特にカウントデータでは、平均値が小さい場合に右裾の重い分布が現れます。

OLSの適用が統計的に妥当なのは、応答変数が連続かつ値に上下の制約がない場合に限られます。この条件を超えるデータ型に対しては、より適切な確率分布と変換の仕組みを組み込んだ手法が必要となります。

2値データに対する線形確率モデルとロジスティック回帰の予測曲線の比較

(Fig1. 2値データに対する線形確率モデルとロジスティック回帰の予測曲線の比較)

GLMの三要素

一般化線形モデルは、確率分布コンポーネント・線形予測子コンポーネント・リンク関数コンポーネントという三つの要素によって定義されます。この構造が、多様な応答変数への統一的な対応を可能にします。

第一の要素は確率分布コンポーネントです。応答変数 $Y$ が従う確率分布を指定します。GLMで扱える分布は指数型分布族に限定されており、正規分布・二項分布・ポアソン分布・ガンマ分布などがこれに含まれます。選択した分布ファミリーが、応答変数の期待値 $\mu = E[Y]$ と平均-分散関係を決定します。

第二の要素は線形予測子コンポーネントです。$p$ 個の説明変数 $x_1, x_2, \ldots, x_p$ と回帰係数 $\beta_0, \beta_1, \ldots, \beta_p$ を用いて

$$\eta = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p$$

と定義されます。$\eta$ は線形構造を担い、応答変数の変換後の期待値に対応します。

第三の要素がリンク関数コンポーネントです。応答変数の期待値 $\mu = E[Y]$ と線形予測子 $\eta$ を接続する単調関数 $g$ であり、

$$g(\mu) = \eta$$

という関係を満たします。リンク関数の逆関数 $g^{-1}(\eta) = \mu$ によって、線形予測子の値が応答変数の期待値の定義域に収まる形で変換されます。各確率分布に対して数学的に最も自然な形で対応するリンク関数を正準リンク関数と呼びます。正準リンク関数の詳細な理論的背景は後続記事で扱います。

GLMが成立するためには、三つの仮定が要求されます。第一に、応答変数が指数型分布族に従うことです。第二に、各観測値が互いに独立であることです。第三に、線形予測子に含める変数および変換が適切に選択されていることです。これらの仮定のいずれかが誤って設定された場合、推定量に偏りが生じ、モデルが実際のデータ構造に適合しないという問題が発生します。三要素の選択誤りは適合度の悪化だけでなく、係数の解釈誤りにも直結します。

主要リンク関数の形状比較(identity・logit・log・inverse)

(Fig3. 主要リンク関数の形状比較(identity・logit・log・inverse))

応答変数の種類とGLMファミリー

GLMでは、応答変数のデータ型に対応した確率分布(ファミリー)を選択します。以下に主要な四つのファミリーと、それぞれに対応するリンク関数の定義を示します。

連続かつ値に制約のない応答変数には正規分布ファミリーを適用します。正準リンク関数は恒等リンクで、

$$g(\mu) = \mu$$

と定義されます。これはOLSの特殊ケースに対応し、通常の線形回帰が一般化線形モデルの枠組みに内包されることを意味します。正規分布では分散 $\sigma^2$ は平均に依存せず一定です。

2値応答(ベルヌーイ試行の結果や二項比率)には二項分布ファミリーを適用します。正準リンク関数はロジットリンクで、

$$g(\mu) = \log\frac{\mu}{1-\mu}$$

と定義されます。このリンク関数によって、予測値が確率の定義域 $[0, 1]$ に収まることが保証されます。二項分布の平均-分散関係は $V(\mu) = \mu(1-\mu)/n$ です。

カウントデータ(非負整数の発生件数)にはポアソン分布ファミリーを適用します。正準リンク関数はlogリンクで、

$$g(\mu) = \log(\mu)$$

と定義されます。logリンクによって予測値が常に正値に制約されます。ポアソン分布では $V(\mu) = \mu$ であり、分散が平均に等しいという平均-分散関係が仮定されます。

連続正値応答(待ち時間・医療費・機器の寿命など)にはガンマ分布ファミリーを適用します。正準リンク関数は逆数リンクで、$g(\mu) = 1/\mu$ と定義されます。ガンマ分布では $V(\mu) = \mu^2$ であり、分散が平均の二乗に比例します。

ファミリーの選択誤りは、係数の標準誤差と統計的推論に系統的な影響を及ぼします。たとえばポアソン分布を仮定すべきカウントデータに正規ファミリーを適用した場合、標準誤差の推定が不正確となり、信頼区間と仮説検定の結果が歪みます。

GLMファミリー 応答変数の型 確率分布 正準リンク関数 代表的応用例
正規(ガウス) 連続・無制約 正規分布 恒等リンク $g(\mu)=\mu$ 気温・身長・試験得点の予測
二項 2値・割合 二項分布 ロジットリンク $g(\mu)=\log\frac{\mu}{1-\mu}$ 疾患の有無・選挙の投票行動
ポアソン カウント(非負整数) ポアソン分布 logリンク $g(\mu)=\log(\mu)$ 有害事象発生数・救急搬送件数
ガンマ 連続・正値 ガンマ分布 逆数リンク $g(\mu)=1/\mu$ 入院費用・機器の故障時間
GLM各ファミリーに対応する確率分布の形状比較(正規・二項・ポアソン・ガンマ)

(Fig2. GLM各ファミリーに対応する確率分布の形状比較(正規・二項・ポアソン・ガンマ))

GLMの推定原理

GLMのパラメータ推定には最尤推定法が用いられます。観測データが与えられたもとで、パラメータ $\boldsymbol{\beta}$ に関する対数尤度 $\ell(\boldsymbol{\beta})$ を最大化することで推定量 $\hat{\boldsymbol{\beta}}$ が定まります。OLSでは正規方程式を解くことで解析的な閉形式解が得られますが、一般化線形モデルでは多くの場合、閉形式解は存在せず数値的な反復計算が必要となります。

この反復計算の主要なアルゴリズムが、反復重み付き最小二乗法(IRLS)です。IRLSは現在の推定値 $\hat{\boldsymbol{\beta}}^{(t)}$ に基づいて作業応答変数と観測重みを構成し、加重最小二乗問題を繰り返し解くことで対数尤度の最大値へと収束します。直感的には、毎回の反復でOLSを重み付きデータに適用し、重みを更新しながら推定値を改善する手続きと捉えられます。

パラメータ更新の根拠となるのはスコア方程式です。対数尤度の $\boldsymbol{\beta}$ に関する一階微分をゼロとおいた連立方程式であり、IRLSはその数値解を反復的に追跡します。各反復ステップで推定量が更新され、連続する反復間のパラメータ変化量が収束判定基準を下回った時点で計算が停止します。

IRLSによる推定が失敗する場合があります。2値応答モデルにおいて、ある説明変数の値が応答変数を完全に予測できる完全分離が生じた場合、最尤推定量が発散し収束しません。また、サンプルサイズが説明変数の数に対して不十分な場合も、同様に収束が失敗することがあります。IRLSの数学的詳細は後続記事で取り上げます。

生物統計領域における応用例

臨床・疫学データへのGLM適用を、二つの代表的なシナリオを通じて整理します。

第一のシナリオは、入院リスク予測です。コホート研究において、患者の年齢・基礎疾患・治療歴などを説明変数とし、入院の有無(0/1)を応答変数とする場合、二項分布ファミリーとロジットリンクを用いたロジスティック回帰を適用します。この設定では、他の変数の影響を統計的に調整したオッズ比が推定されます。オッズ比はある変数を1単位変化させたときのオッズの比として解釈されますが、観察データから得られる推定量は相関の指標であり、因果関係を直接示すものではありません。

第二のシナリオは、有害事象発生数のモデリングです。臨床試験において被験者ごとの有害事象発生件数(カウントデータ)を応答変数とする場合、ポアソン分布ファミリーとlogリンクを用いたポアソン回帰を適用します。被験者によって観察期間が異なる場合には、観察期間の対数をオフセット項として線形予測子に加えることで、発生率(件数を観察期間で割った量)を適切にモデリングできます。

いずれのシナリオでも、各観測が独立であるという仮定が成立していることが前提となります。同一施設の複数患者のデータや、同一患者の繰り返し測定データでは、クラスター内の相関が独立性仮定を損ないます。クラスター構造への対処は一般化推定方程式または一般化線形混合モデルへの拡張が必要です。また、ポアソン分布の平均-分散関係($V(\mu) = \mu$)を実際のデータが超過する過分散が存在する場合は、準ポアソン回帰または負の二項回帰への移行が推奨されます。

主要GLMファミリーの比較と今後の学習パス

OLS・ロジスティック回帰・ポアソン回帰は、いずれも一般化線形モデルの特殊ケースとして統一的に位置づけられます。三モデルに共通する構造は、線形予測子 $\eta = \mathbf{X}\boldsymbol{\beta}$ の形式と、最尤推定によるパラメータ推定手順です。IRLSアルゴリズムはいずれのモデルにも共通して適用されます。

三モデルの差異は確率分布・リンク関数・平均-分散関係の三点に集約されます。OLSは正規分布と恒等リンクを前提とし、分散 $\sigma^2$ は平均に依存しない定数です。ロジスティック回帰は二項分布とロジットリンクを用い、分散は $V(\mu)=\mu(1-\mu)/n$ として平均に依存します。ポアソン回帰はポアソン分布とlogリンクを用い、分散は $V(\mu)=\mu$ として平均と等しくなります。この平均-分散関係の違いが、各モデルの適用対象と推論の特性を規定します。

本カテゴリの後続記事では、まず指数型分布族の一般的な数学的構造を扱い、続いてリンク関数の理論的背景、ロジスティック回帰の推定と解釈、ポアソン回帰の診断と過分散対応、IRLSの詳細へと展開します。

一般化線形モデル自体が対処しない問題として、ランダム効果・空間的相関・非線形効果の三点があります。同一個体や施設内での繰り返し測定によるランダム効果には一般化線形混合モデルが、地理的・時間的な空間相関には空間統計モデルが、説明変数と応答変数の非線形関係にはノンパラメトリック手法や一般化加法モデルが対応します。GLMはこれらの拡張手法の出発点として位置づけられます。

Popular Articles