Top 5 This Week

関連記事

4. ロジスティック回帰:2値応答変数のモデリング

- 本サイト運営者のサービスの紹介 -

なぜロジスティック回帰が必要か:2値応答変数の特性

2値応答変数 $Y \in \{0, 1\}$ はベルヌーイ確率変数として定義されます。事象 $Y = 1$ が生じる確率を $p$ とすると、確率質量関数は次式で表されます。

$$
P(Y = y) = p^{y}(1-p)^{1-y}, \quad y \in \{0, 1\}
$$

期待値は $E[Y] = p$、分散は $\text{Var}(Y) = p(1-p)$ です。分散が平均 $p$ に依存するという特性は、後述するモデリング上の制約と直接関わります。

この確率を説明変数の線形結合で直接モデル化するアプローチが線形確率モデルです。

$$
P(Y = 1 \mid \mathbf{X}) = \mathbf{X}\boldsymbol{\beta}
$$

このモデルには2つの構造的問題があります。第一に、説明変数の値域によっては $\mathbf{X}\boldsymbol{\beta} = 1.3$ や $\mathbf{X}\boldsymbol{\beta} = -0.2$ のような値が得られ、確率の定義域 $[0, 1]$ を逸脱します。第二に、分散 $\text{Var}(Y \mid \mathbf{X}) = p(1-p)$ は予測確率に応じて変化するため、等分散性が成立せず、通常の最小二乗推定量は有効ではありません。確率の有界性 $[0, 1]$ をモデルの構造として保証するためには、異なるモデリング枠組みが必要です。

線形確率モデルの係数は確率の変化量として直感的に解釈できますが、$[0, 1]$ 制約を構造的に満たせないという限界があります。また、異分散性が生じるため、標準誤差の推定や検定統計量の構成に一般化最小二乗法または頑健標準誤差の適用が必要となります。

モデルの定式化:ロジット変換とシグモイド関数

確率 $p \in (0, 1)$ に対するロジット変換は、確率をオッズ $p/(1-p)$ の対数として実数全体に写す変換です。

$$
\text{logit}(p) = \log\frac{p}{1-p}
$$

値域は $(-\infty, +\infty)$ であり、$p \to 0$ で $-\infty$、$p \to 1$ で $+\infty$ に発散します。この変換により、有界な確率量を線形予測子と結びつけることが可能となります。

説明変数 $x_1, \ldots, x_k$ に対する線形予測子 $\eta$ を

$$
\eta = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k
$$

と定義し、logit リンク $\text{logit}(p) = \eta$ によってモデルを構成します。逆リンク関数として整理すると、予測確率はシグモイド関数

$$
P(Y = 1 \mid \mathbf{X}) = \frac{1}{1 + \exp(-\mathbf{X}\boldsymbol{\beta})}
$$

で与えられます。この関数は S 字型の単調増加関数であり、値域は $(0, 1)$ に限定されます。logit リンクは、ベルヌーイ分布が属する指数型分布族の正準リンク関数です。この位置付けは前記事で扱ったリンク関数理論と直接対応します。

係数 $\beta_j$ は $x_j$ が 1 単位増加したときの対数オッズの変化量を表します。$\exp(\beta_j)$ はオッズ比に対応し、応答変数の発生オッズが何倍に変化するかを示します。

このモデルの仮定として、応答変数と各説明変数の間で対数オッズが線形関係にあることが必要です。この仮定は残差プロットや Box-Tidwell 変換による検定で確認できます。確率スケールでの限界効果は $p(1-p)\beta_j$ と表され、説明変数の値に応じて変化します。係数を確率の変化量として直接読むことはできないため、解釈には特定の共変量の値を指定した条件付き計算が必要です。

シグモイド関数の線形予測子と予測確率の関係

(Fig1. シグモイド関数:線形予測子 η と予測確率 P(Y=1|X) の関係)

最尤推定:対数尤度関数とニュートン法

$n$ 個の独立な観測 $(y_i, \mathbf{x}_i)$ に対するロジスティック回帰の対数尤度関数は、ベルヌーイ分布の対数確率質量関数の和として次式で表されます。

$$
\ell(\boldsymbol{\beta}) = \sum_{i=1}^{n} \left[ y_i \log p_i + (1 – y_i) \log(1 – p_i) \right]
$$

ここで $p_i = 1/(1 + \exp(-\mathbf{x}_i^\top \boldsymbol{\beta}))$ です。この対数尤度を $\boldsymbol{\beta}$ で微分したスコア関数のベクトル表現は

$$
\frac{\partial \ell}{\partial \boldsymbol{\beta}} = \mathbf{X}^\top(\mathbf{y} – \mathbf{p})
$$

となります。スコア方程式 $\mathbf{X}^\top(\mathbf{y} – \mathbf{p}) = \mathbf{0}$ は $\boldsymbol{\beta}$ について非線形であるため、解析的な閉形式解は存在しません。

数値最適化にはニュートン–ラフソン法が用いられます。対数尤度の二階微分の負値として定義される情報行列は

$$
\mathbf{X}^\top \mathbf{W} \mathbf{X}, \quad \mathbf{W} = \text{diag}\!\left(p_i(1-p_i)\right)
$$

と表されます。パラメータ更新式は次の通りです。

$$
\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + \left(\mathbf{X}^\top \mathbf{W} \mathbf{X}\right)^{-1} \mathbf{X}^\top(\mathbf{y} – \mathbf{p})
$$

この更新手続きは IRLS(反復重み付き最小二乗法)と等価であり、各反復で重み行列 $\mathbf{W}$ を更新しながら加重回帰問題を解く形式に変換できます。Fisher Scoring は期待情報行列を用いた類似の手続きであり、ロジスティック回帰では観測情報行列と期待情報行列が一致するため両者は同一の更新式となります。反復は一般に少ない回数(10 回程度)で収束しますが、完全分離や説明変数間の多重共線性が強い場合には収束が遅くなることがあります。

最尤推定量は大標本において一致性と漸近正規性を持ちます。推定量の漸近共分散行列は $(\mathbf{X}^\top \mathbf{W} \mathbf{X})^{-1}$ で近似されます。この漸近結果は有限標本には厳密には成立せず、小標本での精度は標本サイズと説明変数の構成に依存します。

各観測が独立同分布に従うこと、および情報行列 $\mathbf{X}^\top \mathbf{W} \mathbf{X}$ が正定値であること(モデルが識別可能であること)が推定の前提条件です。完全分離が生じる場合、すなわちある超平面によって $Y=1$ と $Y=0$ が完全に分離できる場合、最尤推定量が発散し標準誤差が無限大に近づきます。小標本では最尤推定量に有限標本バイアスが生じる可能性があり、Firth の罰則化尤度法による補正が選択肢の一つとなります。

ロジスティック回帰の観測データと予測確率曲線および95%信頼帯

(Fig2. ロジスティック回帰の当てはめ:観測データと予測確率曲線および95%信頼帯)

統計的推論:Wald検定と尤度比検定

回帰係数の推定量が得られた後、各係数の有意性検定と信頼区間の構成には主に Wald 検定と尤度比検定の2種類のアプローチが用いられます。

Wald 検定は推定量の漸近正規性に基づきます。帰無仮説 $H_0: \beta_j = 0$ に対する検定統計量は

$$
z = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)}
$$

であり、帰無分布として標準正規分布 $N(0, 1)$ を用います。標準誤差 $\text{SE}(\hat{\beta}_j)$ は情報行列の逆行列 $(\mathbf{X}^\top \mathbf{W} \mathbf{X})^{-1}$ の対角要素の平方根として得られます。$100(1-\alpha)\%$ の Wald 信頼区間は

$$
\hat{\beta}_j \pm z_{\alpha/2} \cdot \text{SE}(\hat{\beta}_j)
$$

と構成されます。

尤度比検定は、帰無仮説のもとの制約モデル $\boldsymbol{\beta}_0$ と完全モデルの対数尤度の差に基づく統計量

$$
LR = -2\left[\ell(\boldsymbol{\beta}_0) – \ell(\hat{\boldsymbol{\beta}})\right]
$$

を利用します。この統計量は大標本で自由度 $df$ の $\chi^2$ 分布に漸近します。ネストした2モデルの比較に直接適用でき、説明変数の追加によるモデル適合の改善量を評価できます。

プロファイル尤度信頼区間は、注目するパラメータを変化させながら残りのパラメータを条件付き最尤値に更新することで対数尤度曲面を直接反映します。Wald 信頼区間が対数尤度の二次近似に依存するのに対し、プロファイル尤度区間は近似の精度が高く、特に小標本や完全分離に近い状況で信頼性が優れています。

両検定の手法は大標本で漸近的に等価ですが、有限標本では乖離が生じます。この推論手続きは $n$ が十分に大きい大標本漸近論を前提とします。Wald 検定は完全分離に近い状況や小標本で標準誤差が不安定になることがあります。尤度比検定はパラメータ変換に対して不変という利点がありますが、完全モデルと制約モデルの双方を推定する計算コストが伴います。

特性 Wald検定 尤度比検定
計算コスト 低い(完全モデルのみ推定) 高い(完全モデルと制約モデルを双方推定)
小標本での安定性 不安定(標準誤差の近似精度が低下) 相対的に安定
パラメータ変換不変性 なし(変換後の推定量で統計量が変わる) あり(対数尤度差は変換に依存しない)
完全分離時の挙動 標準誤差が発散し検定が機能しない 尤度差が巨大になるが計算自体は可能
推奨される使用場面 大標本・個別係数の迅速な評価 モデル比較・小標本・パラメータ変換を伴う場面

モデル評価:逸脱度・擬似R²・ROC曲線

ロジスティック回帰の適合度は、対数尤度に基づく逸脱度指標と分類性能指標の両面から評価されます。残差逸脱度は

$$
D = -2\left[\ell(\hat{\boldsymbol{\beta}}) – \ell(\text{飽和モデル})\right]
$$

と定義されます。飽和モデルは各観測に固有のパラメータを割り当てるモデルであり、当てはまりの上限として基準に用いられます。切片のみのモデルと当てはめモデルの逸脱度の差

$$
\Delta D = D_{\text{null}} – D_{\text{res}}
$$

は説明変数群がモデル適合に寄与した程度を示します。

McFadden 擬似 $R^2$ は

$$
R^2_{\text{McFadden}} = 1 – \frac{\ell(\hat{\boldsymbol{\beta}})}{\ell(\text{切片のみモデル})}
$$

と定義され、0 から 1 の値をとります。この指標は通常の最小二乗回帰における $R^2$ とは定義が異なり、値の絶対水準を同等に解釈することはできません。一般に 0.2 から 0.4 の範囲でも良好な当てはまりとみなされることがあります。モデル選択には AIC(赤池情報量規準)

$$
\text{AIC} = -2\ell(\hat{\boldsymbol{\beta}}) + 2p
$$

も広く利用されます($p$ はモデルのパラメータ数)。

分類性能の評価には混同行列が基本となります。予測確率を閾値 $c$ で2値化した予測クラスに対して、感度(真陽性率 $= \text{TP}/(\text{TP} + \text{FN})$)、特異度(真陰性率 $= \text{TN}/(\text{TN} + \text{FP})$)、陽性的中率、陰性的中率が定義されます。ROC 曲線は閾値 $c$ を 0 から 1 まで変化させたときの偽陽性率($1 – \text{特異度}$)と真陽性率の対の軌跡です。AUC は ROC 曲線の下面積であり、C 統計量とも呼ばれます。0.5 はランダム分類、1.0 は完全分類に対応します。

逸脱度の計算は飽和モデルが基準として利用できることを前提とします。連続型説明変数を持つモデルでは Pearson 残差の $\chi^2$ 近似が成立しにくく、逸脱度の絶対値に頼ったモデル評価は補足的な確認を必要とします。McFadden 擬似 $R^2$ は最小二乗回帰の $R^2$ と同等には解釈できず、値の絶対水準の比較には注意が必要です。分類閾値 0.5 は感度と特異度のトレードオフに依存し、誤分類コストが非対称な応用では文脈に応じた閾値調整が求められます。

ロジスティック回帰モデルのROC曲線とAUC

(Fig3. ROC曲線とAUC:ロジスティック回帰モデルの分類性能評価)

医療統計への応用:疾患リスク予測

心疾患の発症リスク予測は、ロジスティック回帰が広く適用される代表的な領域です。年齢 $x_1$(歳)、収縮期血圧 $x_2$(mmHg)、喫煙の有無 $x_3$(1=あり、0=なし)、総コレステロール値 $x_4$(mg/dL)を説明変数とするモデルを想定します。連続型変数は量的変化の効果を対数オッズの変化量として捉え、2値型変数は喫煙群と非喫煙群のオッズ比として解釈されます。

係数推定値を $\hat{\beta}_0 = -6.2$、$\hat{\beta}_1 = 0.05$、$\hat{\beta}_2 = 0.02$、$\hat{\beta}_3 = 0.70$、$\hat{\beta}_4 = 0.003$ とします。65歳・収縮期血圧 140 mmHg・喫煙あり・総コレステロール 220 mg/dL の患者における線形予測子は

$$
\hat{\eta} = -6.2 + 0.05 \times 65 + 0.02 \times 140 + 0.70 \times 1 + 0.003 \times 220
$$

$$
= -6.2 + 3.25 + 2.80 + 0.70 + 0.66 = 1.21
$$

となり、予測確率は $\hat{p} = 1/(1 + \exp(-1.21)) \approx 0.77$ と算出されます。この値は当該リスク因子の組み合わせにおける 10 年以内の心疾患発症確率の推定です。

研究デザインによって推定可能な量が異なります。前向きコホート研究では、対象集団における疾患の真の発生割合がデータに反映されるため、絶対確率 $\hat{p}$ とオッズ比の双方を推定できます。後ろ向きケースコントロール研究では、症例と対照のサンプリング比率が研究者によって設定されるため、切片 $\beta_0$ の推定が不能となり、絶対確率の算出はできません。この設計ではオッズ比のみが一致推定されます。

多変量調整は、測定された交絡変数の影響を統計的に制御します。絶対リスク(予測確率)は個別患者の意思決定に有用であり、相対リスクやオッズ比は集団間の比較に用いられます。両者は異なる情報を提供するため、目的に応じた使い分けが必要です。

独立性・対数オッズの線形性・交互作用なし仮定は、実務上モデルの妥当性確認の重点となります。ケースコントロール研究では絶対確率の推定が不能であり、オッズ比のみを報告するか、または前向きコホート設計の採用が必要です。観察研究に基づく解析では未測定の交絡変数が残存している可能性があり、因果推論には慎重な検討が必要です。

関連モデルとの比較および発展的拡張

ロジスティック回帰の位置付けを明確にするために、2値応答に用いられる隣接モデルとの比較を行います。線形確率モデルとの本質的な相違はすでに述べた通り $[0, 1]$ 制約の有無です。プロビット回帰は逆リンク関数として標準正規分布の累積分布関数 $\Phi(\eta)$ を用います。logit リンクと probit リンクの形状は中央域では非常に似ており、両モデルの係数は尺度が異なるものの(プロビット係数はロジスティック係数の約 $1/1.7$ 倍)、予測確率の順序や仮説検定の結論はほぼ一致します。相補対数対数リンク(cloglog)は非対称な S 字型であり、$\eta \to -\infty$ での裾の減衰がロジットより遅く、生存時間のハザードモデルと数学的に対応するため、離散時間生存分析への応用に適しています。

線形判別分析は、クラス内の説明変数が多変量正規分布に従うという仮定のもとで最適な分類境界を導出します。正規性仮定が成立する場合は統計的に効率的ですが、仮定への違反に対してロジスティック回帰より感度が高くなります。ロジスティック回帰は分布仮定をクラス内に置かず、対数オッズの線形性のみを仮定するため、連続変数と2値変数が混在するデータ構造でも適用できます。

応答変数の拡張として、3値以上の名義尺度に対応する多項ロジスティック回帰と、順序尺度を扱う順序ロジスティック回帰があります。多項ロジスティック回帰では基準カテゴリに対するオッズ比を複数の対数線形方程式で表現します。順序ロジスティック回帰では累積対数オッズの平行性仮定(比例オッズ仮定)のもとで単一の回帰係数が全カテゴリに共通して適用されます。高次元データ、特に説明変数の数が観測数に近い状況では、L1 罰則または L2 罰則を付加した正則化ロジスティック回帰がパラメータ推定の安定化と変数選択に有効です。

ロジット仮定は対称な S 字型曲線を前提とします。応答確率の裾の変化が非対称な場合、例えば低確率域でのみ急峻な変化が生じるような場合には、logit リンクではなく cloglog などの非対称リンク関数の適用を検討する必要があります。

Popular Articles