7.1 一般化線形モデル（GLM）の基礎

これまでの章で解説した「線形回帰分析」は、データが正規分布に従うこと（誤差の正規性）を前提としていました。しかし、現実世界のデータは必ずしも正規分布に従うとは限りません。

カウントデータ：来店客数や事故件数など、0以上の整数しかとらないデータ。
二値データ：「購入した/しない」「生存/死亡」など、0か1かの結果にしかならないデータ。
正の連続値：待ち時間や年収など、マイナスの値をとらず、分布が右に裾を引くデータ。

こうしたデータを無理やり線形回帰で分析すると、予測値がマイナスになったり、分散の仮定が満たされなかったりと、不適切なモデルになってしまいます。

そこで登場するのが一般化線形モデル（Generalized Linear Model: GLM）です。GLMは、線形回帰モデルを拡張し、正規分布以外の確率分布に従うデータも統一的に扱えるようにした統計モデリングの枠組みです。1972年にNelderとWedderburnによって提唱されました。

GLMの3つの構成要素

GLMは、以下の3つの要素によって定義されます。

確率分布（Random Component）：目的変数 $y$ が従う確率分布（指数型分布族）。
線形予測子（Linear Predictor）：説明変数 $x$ の線形結合。
リンク関数（Link Function）：線形予測子と確率分布の平均（期待値）を結びつける関数。

線形回帰モデルも、実は「確率分布に正規分布、リンク関数に恒等関数」を用いたGLMの一種であると言えます。

1. 確率分布（Random Component）

GLMでは、目的変数 $y$ が「指数型分布族（Exponential Family）」と呼ばれる確率分布のクラスに従うと仮定します。データの性質に応じて、適切な分布を選択します。

正規分布（Normal）：連続量、左右対称なデータ。（身長、体重、誤差など）
ポアソン分布（Poisson）：単位時間・空間あたりの発生回数。（事故件数、Webアクセス数）
二項分布（Binomial）：成功/失敗の回数や割合。（クリック率、内閣支持率）
ガンマ分布（Gamma）：正の連続値、右に歪んだ分布。（待ち時間、保険金支払額）

2. 線形予測子（Linear Predictor）

線形予測子は、説明変数 $x$ と回帰係数 $\beta$ を線形に結合したもので、モデルの「骨格」となる部分です。通常 $\eta$（イータ）で表されます。

$$
\eta_i = \beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}
$$

この部分は通常の線形回帰と同じ形をしており、説明変数の効果を加法的に表現します。

3. リンク関数（Link Function）

ここがGLMの最も重要なポイントです。
線形予測子 $\eta_i$ は $-\infty$ から $+\infty$ までの任意の値を取り得ます。一方、目的変数 $y$ の期待値 $\mu_i = E[y_i]$ には、確率分布ごとの制約があります。

カウントデータ（ポアソン分布）なら、平均 $\mu$ は必ず $\mu \ge 0$ でなければならない。
確率（二項分布）なら、平均 $\mu$ は必ず $0 \le \mu \le 1$ でなければならない。

この「値の範囲の不整合」を解消するために、期待値 $\mu_i$ を何らかの関数 $g(\cdot)$ で変換して、線形予測子 $\eta_i$ と等しくなるように結びつけます。この変換関数 $g(\cdot)$ をリンク関数と呼びます。

$$
g(\mu_i) = \eta_i = \beta_0 + \beta_1 x_{i1} + \dots
$$

逆に言えば、線形予測子の値を逆リンク関数 $g^{-1}(\cdot)$ で戻すことで、期待値 $\mu_i$ を得ることができます。

$$
\mu_i = g^{-1}(\eta_i)
$$

代表的なリンク関数の例

対数リンク関数（Log Link）：
ポアソン回帰などで使用。期待値 $\mu$ が正の値をとるとき、その対数 $\log(\mu)$ をとれば、範囲は実数全体 $(-\infty, \infty)$ に拡張されます。

$$ \log(\mu_i) = \beta_0 + \beta_1 x_i $$

これにより、予測値 $\mu_i = \exp(\beta_0 + \beta_1 x_i)$ は常に正の値になることが保証されます。

ロジットリンク関数（Logit Link）：
ロジスティック回帰で使用。確率 $\mu$ ($0 < \mu < 1$) をオッズの対数（対数オッズ）に変換します。

$$ \log \left( \frac{\mu_i}{1 – \mu_i} \right) = \beta_0 + \beta_1 x_i $$

これにより、どんな線形予測子の値がきても、逆変換後の $\mu$ は必ず0から1の間に収まります。

GLMのモデル一覧

確率分布とリンク関数の組み合わせにより、様々なモデルが構築されます。

分析手法	確率分布	リンク関数	データの例
正規線形モデル（通常の線形回帰）	正規分布	恒等関数 ($g(\mu)=\mu$)	売上高、気温、テストの点数
ポアソン回帰	ポアソン分布	対数関数 ($g(\mu)=\log \mu$)	1日の来店者数、欠陥箇所の数
ロジスティック回帰	二項分布	ロジット関数 ($g(\mu)=\log \frac{\mu}{1-\mu}$)	合格/不合格、クリック有無
ガンマ回帰	ガンマ分布	逆数関数など ($g(\mu)= -1/\mu$)	故障までの時間、不動産価格

正準リンク関数（Canonical Link Function）

各確率分布には、数学的に扱いやすく、推定の安定性が高い「自然な」リンク関数の組み合わせが存在します。これを正準リンク関数と呼びます。

正規分布 → 恒等リンク
ポアソン分布 → 対数リンク
二項分布 → ロジットリンク

基本的には正準リンク関数を使用することが推奨されますが、分析の目的や解釈のしやすさに応じて、あえて別のリンク関数（例：二項分布に対してプロビットリンクなど）を選ぶこともあります。

まとめ

一般化線形モデル（GLM）は、以下の3つのパーツを組み立てることで、様々なタイプのデータを統一的な理論で分析することを可能にしました。

データの形に合った確率分布を選ぶ。
説明変数を組み合わせて線形予測子を作る。
両者をリンク関数で繋ぐ。

次節以降では、GLMの具体的な応用例として、カウントデータを扱う「ポアソン回帰」や、確率を扱う「ロジスティック回帰」について詳しく解説していきます。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company