リンク関数が必要な理由
一般化線形モデルは、確率分布・線形予測子・リンク関数という3つの要素から構成されます。線形予測子は $\eta = \mathbf{X}\boldsymbol{\beta}$ と表され、実数全体 $(-\infty, +\infty)$ を値としてとります。一方、応答変数の平均 $\mu$ はその確率分布によって値域が制約されます。二値の成否を表す確率では $\mu \in (0, 1)$ に限られ、月間問い合わせ件数のようなカウントデータでは $\mu \geq 0$ が要求されます。
線形予測子が実数全体を動く一方で平均の値域が制約されるという根本的な不整合を解消するために導入される変換が、リンク関数 $g$ です。リンク関数は
$$
g(\mu) = \eta
$$
と定義され、平均 $\mu$ を線形予測子 $\eta$ のスケールへ写します。通常最小二乗法は恒等変換 $\eta = \mu$(identity リンク)を暗黙に採用しており、正規分布を仮定した一般化線形モデルの特殊ケースと位置づけられます。リンク関数が誤指定されていても推定自体は実行されるため、残差プロットや適合度統計量によるモデル診断を実施してリンク指定の妥当性を確認することが必須です。
リンク関数の数学的定義
リンク関数 $g$ は、平均 $\mu$ の定義域から実数全体への写像として定式化されます。
$$
g : \{\mu \mid \mu \in \text{応答変数の平均の定義域}\} \to \mathbb{R}
$$
$g$ が全単射であるとき、逆方向の変換として逆リンク関数(平均関数)$g^{-1}$ が一意に定義されます。
$$
\mu = g^{-1}(\eta)
$$
$\eta = g(\mu)$ と $\mu = g^{-1}(\eta)$ という双方向対応により、モデルは線形予測子のスケールでパラメータを推定しながら、最終的な予測値を平均のスケールで出力することができます。逆リンク関数は予測スコアを応答変数のスケールに戻す役割を担います。
$g$ が満たすべき数学的条件として次の2点が求められます。第一に、$g$ は $\mu$ の定義域全体で連続かつ微分可能であることです。反復重み付き最小二乗法(IRLS)の各反復において $g$ の導関数が作業重みの計算に用いられるため、微分可能性は計算上の要件となります。第二に、$g$ が狭義単調であること(単射であること)です。狭義単調性によって $g$ は全単射となり、$\eta$ と $\mu$ の一対一対応が保証されます。これらの条件が欠けると、IRLS の収束および推定の一意性が保証されなくなります。
正準リンク関数の導出
指数型分布族に属する分布の確率密度関数は、自然パラメータ $\theta$ を用いて
$$
f(y;\,\theta,\,\phi) = \exp\!\left(\frac{y\theta – b(\theta)}{a(\phi)} + c(y,\phi)\right)
$$
の形に表されます。対数分配関数 $b(\theta)$ の一次導関数が平均を与え、$\mu = b'(\theta)$ が成立します。この関係を $\theta$ について解くと
$$
\theta = (b’)^{-1}(\mu)
$$
が得られます。正準リンク関数とはこの対応を直接リンク関数として採用したものであり、
$$
g_{\text{canon}}(\mu) = \theta = (b’)^{-1}(\mu)
$$
と定義されます。正準リンクを使用すると自然パラメータ $\theta$ と線形予測子 $\eta$ が等しくなり、スコア方程式が
$$
\sum_{i=1}^{n}(y_i – \mu_i)\mathbf{x}_i = \mathbf{0}
$$
という簡潔な形に整理されます。この形式ではフィッシャー情報行列が対角優位な構造をとるため、推定の計算効率が向上します。
二項分布の場合、$b(\theta) = \log(1 + e^{\theta})$ であるから $b'(\theta) = e^{\theta}/(1+e^{\theta})$ となり、$\mu = e^{\theta}/(1+e^{\theta})$ を $\theta$ について逆に解くと正準リンクとして
$$
g(\mu) = \log\!\frac{\mu}{1-\mu}
$$
が得られます。これはロジット関数です。各分布族の正準リンクは、正規分布では identity、二項分布では logit、ポアソン分布では log、ガンマ分布では inverse となります。ただし、ドメインの解釈や値域制約の観点から非正準リンクが適切な場合があり、正準リンクが常に最良の選択とはなりません。
主要リンク関数の性質と適用分布
実務で頻用される6種のリンク関数の関数形・値域・適用分布を以下に整理します。
logit リンクは $g(\mu) = \log(\mu/(1-\mu))$ と定義され、$\mu \in (0,1)$ を $\eta \in \mathbb{R}$ に写します。二項分布の正準リンクであり、推定係数は対数オッズ比として解釈されます。$\mu = 0.5$ を中心に対称なS字曲線を描きます。
probit リンクは $g(\mu) = \Phi^{-1}(\mu)$(標準正規分布の累積分布関数の逆関数)として定義され、$\mu \in (0,1)$ を $\eta \in \mathbb{R}$ に写します。二項分布の非正準リンクであり、潜在連続変量モデルとの理論的対応をもちます。
cloglog リンクは $g(\mu) = \log(-\log(1-\mu))$ と定義され、$\mu \in (0,1)$ を $\eta \in \mathbb{R}$ に写します。二項分布の非正準リンクであり、連続時間の比例ハザードモデルとの対応をもちます。logit リンクが $\mu = 0.5$ で対称であるのに対し、cloglog リンクは非対称で、確率が低い領域から急峻に変化する形状を示します。
log リンクは $g(\mu) = \log(\mu)$ と定義され、$\mu \in (0, \infty)$ を $\eta \in \mathbb{R}$ に写します。ポアソン分布の正準リンクであり(ガンマ分布でも用いられます)、推定係数はレート比として乗法的に解釈されます。
identity リンクは $g(\mu) = \mu$ と定義され、$\mu \in \mathbb{R}$ をそのまま $\eta \in \mathbb{R}$ に写します。正規分布の正準リンクです。このリンクを二項応答データに適用すると、線形確率モデルとなりますが、予測確率が $[0,1]$ の範囲を逸脱する危険があります。
inverse リンクは $g(\mu) = 1/\mu$ と定義され、$\mu \in (0, \infty)$ を $\eta \in (0, \infty)$ に写します。ガンマ分布の正準リンクです。$\mu$ が $0$ に近づくにつれて $1/\mu$ が急増し、数値的不安定が生じる可能性があります。
| 分布族 | リンク名 | $g(\mu)$ の式 | $\mu$ の値域 | $\eta$ の値域 | 正準リンクか |
|---|---|---|---|---|---|
| 正規 | identity | $\mu$ | $(-\infty, +\infty)$ | $(-\infty, +\infty)$ | はい |
| 二項 | logit | $\log\!\dfrac{\mu}{1-\mu}$ | $(0,1)$ | $(-\infty, +\infty)$ | はい |
| 二項 | probit | $\Phi^{-1}(\mu)$ | $(0,1)$ | $(-\infty, +\infty)$ | いいえ |
| 二項 | cloglog | $\log(-\log(1-\mu))$ | $(0,1)$ | $(-\infty, +\infty)$ | いいえ |
| ポアソン | log | $\log(\mu)$ | $(0, +\infty)$ | $(-\infty, +\infty)$ | はい |
| ガンマ | inverse | $1/\mu$ | $(0, +\infty)$ | $(0, +\infty)$ | はい |
| ガンマ | log | $\log(\mu)$ | $(0, +\infty)$ | $(-\infty, +\infty)$ | いいえ |
(Fig1. 主要リンク関数の関数形比較:logit・probit・cloglog の $\mu \to \eta$ 変換)
正準リンクと非正準リンクのトレードオフ
正準リンクを採用すると、前節で示したスコア方程式 $\sum_{i}(y_i – \mu_i)\mathbf{x}_i = \mathbf{0}$ が成立し、IRLS(反復重み付き最小二乗法)のアルゴリズムが安定して収束しやすくなります。また、フィッシャー情報行列が観測情報行列と一致するため、標準誤差の計算が簡潔になるという推定上の優位性があります。
一方、非正準リンクを使用する場合には、IRLS の各反復ステップで追加のヤコビアン項 $\partial\mu/\partial\eta$ が計算に加わります。この項の存在により収束が遅くなる、または収束しない場合があります。さらに、非正準リンクでは予測値が不正な値域(負の確率など)に出る可能性があり、解の存在や一意性の保証が弱くなります。
しかし非正準リンクには解釈上の利点があります。公衆衛生・疫学の研究では、log リスクリンクを二項応答に適用することで、リスク比を直接推定できます。logit リンクが与えるオッズ比よりもリスク比のほうが臨床的解釈が容易な場面では、収束の複雑さを許容しても非正準リンクを選択する動機が生じます。正準リンクと非正準リンクの選択は、計算安定性と係数解釈のしやすさとのトレードオフとして判断します。
(Fig2. 逆リンク関数の比較:線形予測子 $\eta$ に対する予測確率の変化(logit・probit・cloglog))
リンク関数の選択基準
実務でリンク関数を選択する際には、以下の基準を順に検討します。
第一の基準は、応答変数の値域と逆リンク関数の値域の整合性です。確率を応答変数とするモデルには逆リンクが $(0,1)$ に値をとる関数(logit・probit・cloglog)を使用し、非負の実数を応答変数とするモデルには逆リンクが $(0,\infty)$ に値をとる関数(log・inverse)を選択します。この基準を満たさないリンクは予測の信頼性を損ないます。
第二の基準は、理論的モデルとの整合性です。連続時間の生存データを区間打ち切りで観測する場合、比例ハザードモデルに対応する cloglog リンクが理論的に適切です。特定のメカニズムを仮定するモデルがあれば、そのメカニズムと整合するリンクを優先します。
第三の基準は、係数の解釈しやすさです。logit リンクはオッズ比、log リンクはレート比、identity リンクは差として係数を解釈できます。分析の目的に応じて最も意味のある解釈を与えるリンクを選びます。
第四の基準は、同一分布族内での赤池情報量規準(AIC)による比較です。同一の確率分布族を仮定したうえでリンク関数のみを変えてモデルを比較する場合、AIC の差によって相対的な適合度を評価できます。ただし、AIC による比較は同一分布族内でのみ有効であり、分布族をまたいだ比較には使用できません。
データ適応的なリンク選択の方法として、Box–Cox 型リンクのようにリンク関数のパラメータをデータから推定する枠組みも提案されています。ただし、リンク関数をデータドリブンに選択するとモデル選択の多重比較に相当する問題が生じるため、推定量の分布論的解釈には注意が必要です。
マーケティング分析への応用:コンバージョン率のモデリング
Web キャンペーンにおけるコンバージョン率の推定では、広告接触回数・チャネル・ユーザー属性を共変量 $\mathbf{x}$ とし、コンバージョンの有無を応答変数とする二項 GLM が用いられます。logit リンクを採用すると、コンバージョン確率 $p$ は
$$
\log\!\frac{p}{1-p} = \beta_0 + \beta_1 x
$$
と線形予測子に連結されます。係数 $\beta_1$ の指数変換 $\exp(\beta_1)$ はオッズ比を表し、共変量 $x$ が1単位増加したときのコンバージョンオッズの変化倍率として解釈されます。
A/B テストデータに対してこのモデルを適用すると、介入群と対照群のコンバージョン率の差を共変量で調整したうえで定量化できます。logit リンクを採用するか log リスクリンクを採用するかによって、推定される効果指標がオッズ比かリスク比かという違いが生じます。コンバージョン率が比較的高い(10% 以上の)場面ではオッズ比とリスク比の数値が乖離するため、施策効果の解釈においてリンクの選択が実質的な意味をもちます。
本モデルの適用には次の仮定が必要です。第一に、各ユーザーのコンバージョンが互いに独立かつ交換可能であること(独立同分布の仮定)です。第二に、線形予測子が真の logit スケールで応答変数に影響すること、すなわちリンク関数の指定が正しいことです。
適用上の限界として、コンバージョン率が1%未満の極希少イベント環境では logit リンクによる最尤推定が不安定になりやすく、Firth 補正や log リスクリンクの検討が必要な場合があります。また、同一ユーザーの複数セッションや広告グループ内のクラスター構造がある場合、各観測の独立性が成立せず、標準的な二項 GLM の標準誤差にバイアスが生じます。このような非独立性が疑われる場合には、一般化推定方程式やランダム効果モデルへの拡張を検討します。
(Fig3. マーケティングデータへの logit リンク GLM のフィッティング例(広告接触回数とコンバージョン率))

