2026年 2月 25日 水曜日

Top 5 This Week

Related Posts

7.1 一般化線形モデル(GLM)の基礎


これまでの章で解説した「線形回帰分析」は、データが正規分布に従うこと(誤差の正規性)を前提としていました。しかし、現実世界のデータは必ずしも正規分布に従うとは限りません。

  • カウントデータ:来店客数や事故件数など、0以上の整数しかとらないデータ。
  • 二値データ:「購入した/しない」「生存/死亡」など、0か1かの結果にしかならないデータ。
  • 正の連続値:待ち時間や年収など、マイナスの値をとらず、分布が右に裾を引くデータ。

こうしたデータを無理やり線形回帰で分析すると、予測値がマイナスになったり、分散の仮定が満たされなかったりと、不適切なモデルになってしまいます。

そこで登場するのが一般化線形モデル(Generalized Linear Model: GLM)です。GLMは、線形回帰モデルを拡張し、正規分布以外の確率分布に従うデータも統一的に扱えるようにした統計モデリングの枠組みです。1972年にNelderとWedderburnによって提唱されました。

GLMの3つの構成要素

GLMは、以下の3つの要素によって定義されます。

  1. 確率分布(Random Component):目的変数 $y$ が従う確率分布(指数型分布族)。
  2. 線形予測子(Linear Predictor):説明変数 $x$ の線形結合。
  3. リンク関数(Link Function):線形予測子と確率分布の平均(期待値)を結びつける関数。

線形回帰モデルも、実は「確率分布に正規分布、リンク関数に恒等関数」を用いたGLMの一種であると言えます。

1. 確率分布(Random Component)

GLMでは、目的変数 $y$ が「指数型分布族(Exponential Family)」と呼ばれる確率分布のクラスに従うと仮定します。データの性質に応じて、適切な分布を選択します。

  • 正規分布(Normal):連続量、左右対称なデータ。(身長、体重、誤差など)
  • ポアソン分布(Poisson):単位時間・空間あたりの発生回数。(事故件数、Webアクセス数)
  • 二項分布(Binomial):成功/失敗の回数や割合。(クリック率、内閣支持率)
  • ガンマ分布(Gamma):正の連続値、右に歪んだ分布。(待ち時間、保険金支払額)

2. 線形予測子(Linear Predictor)

線形予測子は、説明変数 $x$ と回帰係数 $\beta$ を線形に結合したもので、モデルの「骨格」となる部分です。通常 $\eta$(イータ)で表されます。

$$
\eta_i = \beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}
$$

この部分は通常の線形回帰と同じ形をしており、説明変数の効果を加法的に表現します。

3. リンク関数(Link Function)

ここがGLMの最も重要なポイントです。
線形予測子 $\eta_i$ は $-\infty$ から $+\infty$ までの任意の値を取り得ます。一方、目的変数 $y$ の期待値 $\mu_i = E[y_i]$ には、確率分布ごとの制約があります。

  • カウントデータ(ポアソン分布)なら、平均 $\mu$ は必ず $\mu \ge 0$ でなければならない。
  • 確率(二項分布)なら、平均 $\mu$ は必ず $0 \le \mu \le 1$ でなければならない。

この「値の範囲の不整合」を解消するために、期待値 $\mu_i$ を何らかの関数 $g(\cdot)$ で変換して、線形予測子 $\eta_i$ と等しくなるように結びつけます。この変換関数 $g(\cdot)$ をリンク関数と呼びます。

$$
g(\mu_i) = \eta_i = \beta_0 + \beta_1 x_{i1} + \dots
$$

逆に言えば、線形予測子の値を逆リンク関数 $g^{-1}(\cdot)$ で戻すことで、期待値 $\mu_i$ を得ることができます。

$$
\mu_i = g^{-1}(\eta_i)
$$

代表的なリンク関数の例

対数リンク関数(Log Link):
ポアソン回帰などで使用。期待値 $\mu$ が正の値をとるとき、その対数 $\log(\mu)$ をとれば、範囲は実数全体 $(-\infty, \infty)$ に拡張されます。

$$ \log(\mu_i) = \beta_0 + \beta_1 x_i $$

これにより、予測値 $\mu_i = \exp(\beta_0 + \beta_1 x_i)$ は常に正の値になることが保証されます。

ロジットリンク関数(Logit Link):
ロジスティック回帰で使用。確率 $\mu$ ($0 < \mu < 1$) をオッズの対数(対数オッズ)に変換します。

$$ \log \left( \frac{\mu_i}{1 – \mu_i} \right) = \beta_0 + \beta_1 x_i $$

これにより、どんな線形予測子の値がきても、逆変換後の $\mu$ は必ず0から1の間に収まります。

GLMのモデル一覧

確率分布とリンク関数の組み合わせにより、様々なモデルが構築されます。

分析手法 確率分布 リンク関数 データの例
正規線形モデル
(通常の線形回帰)
正規分布 恒等関数
($g(\mu)=\mu$)
売上高、気温、テストの点数
ポアソン回帰 ポアソン分布 対数関数
($g(\mu)=\log \mu$)
1日の来店者数、欠陥箇所の数
ロジスティック回帰 二項分布 ロジット関数
($g(\mu)=\log \frac{\mu}{1-\mu}$)
合格/不合格、クリック有無
ガンマ回帰 ガンマ分布 逆数関数など
($g(\mu)= -1/\mu$)
故障までの時間、不動産価格

正準リンク関数(Canonical Link Function)

各確率分布には、数学的に扱いやすく、推定の安定性が高い「自然な」リンク関数の組み合わせが存在します。これを正準リンク関数と呼びます。

  • 正規分布 → 恒等リンク
  • ポアソン分布 → 対数リンク
  • 二項分布 → ロジットリンク

基本的には正準リンク関数を使用することが推奨されますが、分析の目的や解釈のしやすさに応じて、あえて別のリンク関数(例:二項分布に対してプロビットリンクなど)を選ぶこともあります。

まとめ

一般化線形モデル(GLM)は、以下の3つのパーツを組み立てることで、様々なタイプのデータを統一的な理論で分析することを可能にしました。

  1. データの形に合った確率分布を選ぶ。
  2. 説明変数を組み合わせて線形予測子を作る。
  3. 両者をリンク関数で繋ぐ。

次節以降では、GLMの具体的な応用例として、カウントデータを扱う「ポアソン回帰」や、確率を扱う「ロジスティック回帰」について詳しく解説していきます。

Popular Articles