ロジスティック回帰分析は、ある事象が発生する確率を予測・説明するための一般化線形モデル(GLM)の一種です。名前に「回帰」と付いていますが、実際には分類問題(クラス分類)を解くために用いられます。
通常の線形回帰が目的変数に連続値(売上や身長など)をとるのに対し、ロジスティック回帰は目的変数にカテゴリカル変数(購入した/しない、治癒した/していないなど)をとります。マーケティングの反応予測、医療統計における疾患リスクの評価、与信審査など、幅広い分野で標準的な手法として利用されています。
目的変数のカテゴリ数や性質によって、以下の3つのタイプに分類されます。
- 二項ロジスティック回帰:選択肢が2つの場合(Yes/No)
- 多項ロジスティック回帰:選択肢が3つ以上で順序がない場合(A/B/C)
- 序数ロジスティック回帰:選択肢が3つ以上で順序がある場合(低/中/高)
1. 二項ロジスティック回帰(Binomial Logistic Regression)
最も基本的で頻繁に使用されるモデルです。目的変数 $y$ が 0 または 1 の値をとる場合(例:合格=1、不合格=0)に適用されます。
シグモイド関数とロジット変換
線形回帰式 $\beta_0 + \beta_1 x$ をそのまま確率 $p$ の予測に使うと、予測値が0未満や1を超えてしまう問題が生じます。そこで、値を常に0から1の範囲に収めるためにシグモイド関数(ロジスティック関数)を利用します。
$$
p = \frac{1}{1 + \exp(-(\beta_0 + \beta_1 x))}
$$
この式を変形し、左辺を線形予測子($\beta_0 + \beta_1 x$)の形にしたものがロジット変換です。
$$
\log \left( \frac{p}{1-p} \right) = \beta_0 + \beta_1 x
$$
ここで左辺の $\frac{p}{1-p}$ はオッズ(ある事象が起こる確率と起こらない確率の比)であり、その対数をとったものを対数オッズ(ロジット)と呼びます。つまり、ロジスティック回帰は対数オッズを線形回帰しているのと同義です。
パラメータの解釈:オッズ比
ロジスティック回帰の係数 $\beta$ は、そのままでは確率の変化量として解釈できません。解釈のためには、係数を指数変換($\exp(\beta)$)してオッズ比(Odds Ratio: OR)を求めます。
- $\beta > 0$ (オッズ比 > 1):その変数が増加すると、事象の発生確率(オッズ)が高まる。
- $\beta < 0$ (オッズ比 < 1):その変数が増加すると、事象の発生確率(オッズ)が低くなる。
- $\beta = 0$ (オッズ比 = 1):その変数は確率に影響を与えない。
例えば、ある疾患の発症モデルで「喫煙」変数のオッズ比が2.5であれば、「喫煙者は非喫煙者に比べて発症するオッズが2.5倍高い」と解釈します。
2. 多項ロジスティック回帰(Multinomial Logistic Regression)
目的変数が3つ以上のカテゴリを持ち、かつそれらに順序がない場合(名義尺度)に使用されます。例えば、通学手段(徒歩、バス、自転車)の選択要因を分析する場合などが該当します。
モデルの仕組み
多項ロジスティック回帰では、ある一つのカテゴリをベースライン(参照カテゴリ)として設定し、それ以外の各カテゴリとの間で二項ロジスティック回帰を同時に実行するイメージでモデルを構築します。
カテゴリがK個ある場合、K-1本の回帰式が作られます。
$$
\log \left( \frac{P(Y=k)}{P(Y=Reference)} \right) = \beta_{k0} + \beta_{k1} x
$$
機械学習の分野では、ソフトマックス関数を用いて各クラスへの所属確率を算出する手法として説明されることもありますが、統計モデルとしての本質は一般化ロジットモデルです。
3. 序数ロジスティック回帰(Ordinal Logistic Regression)
目的変数が3つ以上のカテゴリを持ち、かつそれらに順序がある場合(順序尺度)に使用されます。例えば、アンケートの満足度(不満、普通、満足)や、症状の重症度(軽度、中等度、重度)の分析に適しています。
比例オッズモデル(Proportional Odds Model)
序数ロジスティック回帰で最も一般的に用いられるのが累積ロジットモデルです。これは、あるカテゴリ以下になる累積確率をモデル化します。
「不満」 vs 「普通・満足」
「不満・普通」 vs 「満足」
このように閾値を設けて分割したとき、説明変数がオッズに与える影響(係数 $\beta$)はどの分割点でも常に一定であると仮定します。これを比例オッズ性の仮定と呼びます。
この仮定のおかげで、解釈がシンプルになります。「満足度が1段階上がるごとのオッズ比」として変数の効果を説明できるためです。ただし、この仮定が満たされない場合は、多項ロジスティック回帰の利用を検討する必要があります。
モデルの評価指標
ロジスティック回帰モデルの良さを評価するために、決定係数 $R^2$ の代わりとして以下の指標が用いられます。
擬似決定係数(Pseudo $R^2$)
マクファデンの $R^2$ などがあります。線形回帰の $R^2$ と異なり、絶対的な基準はありませんが、モデル間の比較や適合度の目安として使用します。
AIC(赤池情報量基準)
モデルの当てはまりの良さと複雑さ(変数の多さ)のバランスを評価する指標です。値が小さいモデルほど良いとされます。変数選択を行う際によく利用されます。
混同行列と正解率
予測確率に対して閾値(通常は0.5)を設け、実際に予測が当たったかどうかを表形式にまとめたものです。正解率(Accuracy)、適合率(Precision)、再現率(Recall)などを算出します。
ROC曲線とAUC
閾値を変化させたときの真陽性率と偽陽性率のプロットをROC曲線と呼びます。その下の面積であるAUC(Area Under the Curve)は、0.5から1の値をとり、1に近いほど判別能力が高いモデルであることを示します。
まとめ
ロジスティック回帰分析は、質的変数を予測・説明するための標準的なツールです。
- 二項:Yes/Noの確率は?
- 多項:A/B/Cのどれを選ぶか?
- 序数:満足度は高くなるか?
データの尺度に合わせて適切なモデルを選択し、オッズ比を用いて結果を解釈することで、現象の要因を定量的に理解することが可能になります。
