Top 5 This Week

関連記事

10. プロビット回帰と2値応答モデルの比較

- 本サイト運営者のサービスの紹介 -

問題設定:2値応答モデルにおけるリンク関数の選択

応答変数$Y$が0または1の値を取る2値応答モデルでは、$P(Y=1|\mathbf{x})$を説明変数$\mathbf{x}$の関数として表現する必要があります。最も単純な選択は線形確率モデル$P(Y=1|\mathbf{x}) = \mathbf{x}’\boldsymbol{\beta}$ですが、この定式化では推定値が負の値または1を超える値を取り得るという根本的な問題があります。確率は$[0,1]$の範囲に収まらなければならないため、線形確率モデルは2値応答の統計モデルとして不適切です。

この問題を解決する枠組みとして、一般化線形モデルは確率分布の累積分布関数$F$を用いて

$$
P(Y=1|\mathbf{x}) = F(\mathbf{x}’\boldsymbol{\beta})
$$

と表現します。$F$は任意の実数を$[0,1]$に写す単調増加関数であり、$F$の選択がリンク関数の選択に直接対応します。主要な選択肢はlogit・probit・cloglogの3種であり、それぞれの逆リンク関数は次のように定義されます。

$$
F_{\text{logit}}(\eta) = \frac{1}{1+\exp(-\eta)}, \quad F_{\text{probit}}(\eta) = \Phi(\eta), \quad F_{\text{cloglog}}(\eta) = 1 – \exp(-\exp(\eta))
$$

ここで$\Phi$は標準正規分布の累積分布関数です。リンク関数の選択は、観測されない潜在変数の誤差分布に関する仮定と等価であり、logitはロジスティック分布、probitは標準正規分布、cloglogはGumbel分布(最小極値分布)の誤差仮定に対応します。モデル全体を通じて、すべての観測は互いに独立であるという仮定が前提となります。

プロビットモデルの定式化と潜在変数解釈

プロビットモデルは、観測されない連続変数$Y^*$の閾値モデルとして厳密に導出されます。潜在変数モデルは

$$
Y^* = \mathbf{x}’\boldsymbol{\beta} + \varepsilon, \quad \varepsilon \sim N(0, 1)
$$

と定式化されます。観測変数$Y$は潜在変数が閾値0を超えるかどうかによって決定されます。

$$
Y = \mathbf{I}(Y^* > 0)
$$

この閾値ルールと誤差項の分布から、$Y=1$となる確率は

$$
P(Y=1|\mathbf{x}) = P(\varepsilon > -\mathbf{x}’\boldsymbol{\beta}) = 1 – \Phi(-\mathbf{x}’\boldsymbol{\beta}) = \Phi(\mathbf{x}’\boldsymbol{\beta})
$$

と導かれます。ここで標準正規分布の対称性$1 – \Phi(-a) = \Phi(a)$を用いています。

プロビット係数$\beta_j$の解釈は潜在変数スケールで行われます。他の共変量を一定に保った下での$x_j$の1単位増加は、潜在変数$Y^*$の条件付き期待値を$\beta_j$だけ変化させます。この変化量は潜在変数の標準偏差($\sigma = 1$に固定されています)を単位とした効果量として解釈されます。

この定式化には2つの基本的な仮定が課されます。第1は誤差項$\varepsilon$が標準正規分布$N(0,1)$に従うという誤差項の正規性です。第2は誤差分散を1に固定することによる識別可能性の確保です。潜在変数モデルでは$\boldsymbol{\beta}$と$\sigma^2$を同時に識別することはできず、$\sigma^2 = 1$という制約が係数の一意推定を可能にします。

プロビット係数はオッズ比として直接解釈することができません。ロジットモデルの係数は対数オッズ比として解釈できますが、プロビット係数はその対応がなく、異なるデータセット間での係数の直接比較には注意が必要です。また、誤差分散の非識別性により、係数のスケールは正規化の選択に依存します。

ロジットとプロビットの数理的比較:裾の厚さと係数スケール

ロジスティック分布と標準正規分布は形状が類似しますが、裾の厚さに系統的な差異があります。ロジスティック分布の標準偏差は$\pi/\sqrt{3} \approx 1.814$であり、標準正規分布の標準偏差1と比較して約1.814倍大きい値です。この分布の広がりの違いが、両モデルの係数スケールの差異に直結します。

同一データに対してロジットとプロビットを当てはめた場合、係数の間には近似的な変換関係が成立します。

$$
\hat{\beta}_{\text{logit}} \approx \frac{\pi}{\sqrt{3}} \times \hat{\beta}_{\text{probit}} \approx 1.814 \times \hat{\beta}_{\text{probit}}
$$

ロジスティック分布と標準正規分布のCDFの数値的差異は、$\eta$が中間的な値を取る領域(例えば$|\eta| < 2$付近)で最大になります。一方、$\eta$が$\pm 4$を超える極端な領域ではどちらのCDFも0または1に近づき、両モデルの予測確率の差は縮小します。

ロジスティック分布と標準正規分布の確率密度関数の比較

(Fig2. ロジスティック分布と標準正規分布の確率密度関数の比較(裾の厚さの違い))

実データでは両モデルの予測確率の差が小さく、データのみによって統計的に識別することは多くの場合困難です。また、異なるデータセット間で係数を直接比較する際には1.814倍のスケール変換を適用しなければ誤った解釈が生じます。

相補ログログリンクと比例ハザードモデルとの接続

相補ログログ(cloglog)リンクはlogitおよびprobitとは異なる非対称な応答関数を定義します。cloglog変換は

$$
g(p) = \log(-\log(1-p))
$$

と定義され、逆リンク関数は

$$
P(Y=1|\mathbf{x}) = 1 – \exp(-\exp(\eta))
$$

となります。この関数はGumbel分布(最小極値分布)の累積分布関数$F(\eta) = 1 – \exp(-\exp(\eta))$と一致し、潜在変数の誤差分布がGumbel分布に従うという仮定に対応します。

cloglogモデルが持つ重要な性質は、離散時間比例ハザードモデルとの数学的等価性です。連続時間生存モデルを離散化すると、各期間内のイベント発生確率はcloglogリンクを持つ2値モデルとして表現されます。この等価性により、cloglogモデルの係数は対数ハザード比として解釈でき、生存分析との理論的接続が確立されます。

logit・probit・cloglogの3つのリンク関数の比較

(Fig1. logit・probit・cloglogの3つのリンク関数の比較(線形予測子ηと応答確率P(Y=1)の関係))

cloglogの適用には、Gumbel分布による誤差分布の仮定と比例ハザード仮定との等価性条件が前提として課されます。非対称リンクであるため、$p$が1に近い領域では予測確率の変化が急峻になります。また、係数のハザード比解釈は生存分析の文脈に依存しており、一般的な2値モデルとしての解釈は直感的でない場合があります。

モデル リンク関数 g(p) 逆リンク F(η) 誤差分布仮定 対称性 主な応用場面
ロジット $\log\frac{p}{1-p}$ $\frac{1}{1+e^{-\eta}}$ ロジスティック分布 対称 医学・マーケティング・一般分類
プロビット $\Phi^{-1}(p)$ $\Phi(\eta)$ 標準正規分布 対称 経済学・社会科学・計量経済
cloglog $\log(-\log(1-p))$ $1-e^{-e^{\eta}}$ Gumbel分布(最小極値) 非対称 離散時間生存分析・希少事象

最尤推定と統計的推測

プロビットモデルのパラメータ$\boldsymbol{\beta}$は最尤推定法により求められます。$n$個の独立観測に対する対数尤度関数は

$$
l(\boldsymbol{\beta}) = \sum_{i=1}^{n} \left[ y_i \log \Phi(\mathbf{x}_i’\boldsymbol{\beta}) + (1-y_i) \log(1 – \Phi(\mathbf{x}_i’\boldsymbol{\beta})) \right]
$$

と表されます。指数型分布族(exponential family)の性質から、この対数尤度は凹関数であり、一意な最大値が保証されます。

$\boldsymbol{\beta}$に関する一階偏微分(スコア関数)を計算すると、各観測$i$の寄与は

$$
w_i = \frac{\phi(\eta_i)}{\Phi(\eta_i)(1-\Phi(\eta_i))}
$$

という重み構造を通じて現れます。ここで$\phi$は標準正規分布の確率密度関数であり、$\eta_i = \mathbf{x}_i’\boldsymbol{\beta}$は線形予測子です。この重み$w_i$はスコア関数における各観測の寄与の大きさを規定します。なお、Fisher情報行列(対数尤度の負の期待ヘッセ行列)を用いたIRLS(反復重み付き最小二乗法)では分子が$[\phi(\eta_i)]^2$の形を持つ別の重みが現れますが、こちらは二階微分に由来する量です。

数値最適化にはNewton-Raphson法またはFisher Scoring法が用いられます。Fisher Scoring法はNewton-Raphson法のヘッセ行列を期待Fisher情報行列で置き換えたものであり、プロビット・ロジットを含む2値モデルの標準的なアルゴリズムです。推定量$\hat{\boldsymbol{\beta}}$の漸近分布は$N(\boldsymbol{\beta}, \mathcal{I}(\boldsymbol{\beta})^{-1})$であり、標準誤差はFisher情報行列の逆行列の対角要素の平方根として計算されます。

係数の有意性検定には主としてWald統計量

$$
W = \left(\frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}\right)^2
$$

と尤度比検定統計量

$$
LR = -2(l_0 – l_1)
$$

が用いられます。$l_0$は制約モデルの対数尤度、$l_1$は非制約モデルの対数尤度です。Wald・尤度比・Rao(スコア)の3検定は漸近的に等価であり、大標本では同一の結論を与えます。

推定の前提として、標本の独立同分布性と識別可能性の条件が必要です。完全分離(perfect separation)が生じる場合——説明変数の線形結合によって$Y$を完全に分類できる場合——最尤推定量は収束せず推定不能となります。また、漸近正規近似に基づく推論は小標本では精度が低下し、Wald検定と尤度比検定の結果が乖離することがあります。

モデル選択と診断:どのリンク関数を選ぶか

logit・probit・cloglogは同一の応答変数に対してリンク関数のみが異なる非ネストモデルです。これらの比較にはAIC(赤池情報量規準)とBIC(ベイズ情報量規準)が用いられます。

$$
\text{AIC} = -2l(\hat{\boldsymbol{\beta}}) + 2p, \quad \text{BIC} = -2l(\hat{\boldsymbol{\beta}}) + p \log n
$$

ここで$p$はパラメータ数、$n$は標本サイズです。AIC・BIC比較の前提として、同一データ・同一応答変数への適用が必要です。

リンク関数の適合性を診断するための残差分析には、Pearson残差

$$
r_i = \frac{y_i – \hat{p}_i}{\sqrt{\hat{p}_i(1-\hat{p}_i)}}
$$

とPearson $\chi^2$統計量$\sum_i r_i^2$が用いられます。予測確率のキャリブレーション評価にはHosmer-Lemeshow検定が利用されます。この検定は観測を十分位数で$K$グループに分割し、各グループの観測頻度$O_k$と期待頻度$E_k$を比較する統計量を構成します。系統的なキャリブレーションの誤差はリンク関数の選択誤りを示唆する場合がありますが、この診断は確証的ではなく参考情報として位置づけられます。

ロジットとプロビットは対数尤度の差が通常微小であるため、AICによる統計的識別は多くの場合困難です。先験的理論——潜在変数の正規性仮定や生存モデルとの等価性など——に基づくリンク関数選択を優先することが推奨されます。理論的根拠がない場合のリンク関数選択は恣意的にならざるを得ません。

社会科学への応用:限界効果の計算と解釈

選挙研究における投票参加や特定候補への投票選択の2値モデリングは、プロビットモデルの代表的な応用です。社会科学データは観測研究が中心であり、標本サイズが中程度の場合が多いため、ロジットとプロビットの統計的識別は困難です。先験的理論(誤差の正規性仮定など)に基づくリンク関数選択が推奨されます。

非線形モデルでは係数$\beta_j$は限界効果と一致しません。プロビットモデルにおける$x_j$の限界効果は、線形予測子の現在の値に依存する非線形な量です。代表的な要約として、平均における限界効果(MEM)は

$$
\frac{\partial P}{\partial x_j}\bigg|_{\mathbf{x}=\bar{\mathbf{x}}} = \phi(\bar{\mathbf{x}}’\hat{\boldsymbol{\beta}}) \times \hat{\beta}_j
$$

と計算されます。一方、平均限界効果(AME)は各観測での限界効果を標本平均したもので

$$
\text{AME}_j = \frac{1}{n}\sum_{i=1}^{n} \phi(\mathbf{x}_i’\hat{\boldsymbol{\beta}}) \times \hat{\beta}_j
$$

と定義されます。MEMは代表的な観測(平均共変量を持つ個人)での効果を示し、AMEは母集団全体での効果の平均を目標とします。いずれを選択するかはリサーチクエスチョンに依存します。二値説明変数の場合は連続変数の微分とは異なり、$x_j = 1$と$x_j = 0$の場合の予測確率の差として計算されます。

プロビットモデルにおける限界効果φ(η)の線形予測子による変化

(Fig3. プロビットモデルにおける限界効果φ(η)の線形予測子による変化(MEMとAMEの位置を示す))

係数スケールを調整した後、ロジットとプロビットの限界効果は近似的に等価です。ロジットの限界効果$\hat{p}_i(1-\hat{p}_i) \times \hat{\beta}_j^{\text{logit}}$とプロビットの限界効果$\phi(\eta_i) \times \hat{\beta}_j^{\text{probit}}$は、1.814倍の変換を適用した上で比較すると中間確率域では数値的に近い値を取ります。

限界効果の解釈には、他の共変量を特定の値(MEMでは標本平均)に固定するという仮定が課されます。非線形モデルでは限界効果が変数値に依存するため、単一値での要約には情報損失が伴います。また、交互作用項が存在する場合には主効果の限界効果のみでは不完全な記述となり、相互作用を考慮した計算と解釈が必要です。

Popular Articles