7.5 プロビット回帰分析

プロビット回帰分析は、目的変数が2値をとる分類問題を扱うための一般化線形モデルの一つです。ある事象が発生する確率を予測するという目的において、ロジスティック回帰分析と非常に似た役割を果たしますが、その背景にある数学的な仮定やモデルの解釈方法には明確な違いが存在します。データサイエンスの中級者としては、背後にある確率分布や潜在変数の概念を深く理解し、適切な場面でモデルを選択できることが求められます。

プロビット回帰分析の目的と位置づけ

プロビット回帰は、特定の事象が発生する確率を複数の説明変数から予測・説明するために用いられます。例えば、ある薬を投与した際に患者が治癒するかどうか、あるいは特定の属性を持つ消費者が商品を購入するかどうかといった、結果が「0」か「1」の二者択一となる現象の分析に適用されます。ロジスティック回帰と並んで、分類問題を解くための標準的な統計モデリング手法として位置づけられており、特に計量経済学などの分野で頻繁に利用されています。

理論的背景と潜在変数モデル

プロビット回帰の理論的背景を深く理解するためには、潜在変数モデルの概念を導入することが極めて有効です。私たちがデータとして実際に観測できるのは、ある事象が発生したか否かという離散的な結果のみです。しかし、その背後には観測不可能な連続的な潜在変数が存在すると仮定します。この潜在変数を $y^*$ と表します。

潜在変数 $y^*$ は、複数の説明変数 $x$ の線形結合と、確率的な誤差項 $\epsilon$ によって決定されると考え、数式では $y^* = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p + \epsilon$ と表現されます。プロビット回帰分析における最大の特徴は、この誤差項 $\epsilon$ が平均0、分散1の標準正規分布に従うと仮定する点にあります。そして、この目に見えない潜在変数 $y^*$ がある一定の閾値を超えたときに初めて、実際の観測値として事象の発生が記録されると定式化します。

リンク関数と定義式

潜在変数の仮定に基づくと、事象が発生する確率 $p$ は、誤差項が特定の線形予測子よりも小さくなる確率として計算されます。標準正規分布の累積分布関数を $\Phi$ とすると、事象の発生確率は $p = \Phi(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)$ と定式化されます。このモデルは、説明変数の線形結合を標準正規分布の累積分布関数に代入することで、予測値を常に0から1の範囲に収める役割を果たしています。

この式の両辺に累積分布関数の逆関数 $\Phi^{-1}$ を適用したものがプロビットリンク関数です。数式では $\Phi^{-1}(p) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p$ となり、これにより確率を負の無限大から正の無限大までの連続値に変換し、一般化線形モデルの枠組みでのパラメータ推定を可能にしています。

パラメータの解釈：限界効果

モデルの解釈性において、プロビット回帰はロジスティック回帰と大きく異なります。ロジスティック回帰では推定された回帰係数を指数変換することでオッズ比として直感的に解釈できましたが、プロビットモデルにおける係数自体は、潜在変数をどれだけ変化させるかを示す値に過ぎません。そのため、説明変数が事象の発生確率に与える具体的な影響度合いを評価するためには、限界効果を計算する必要があります。

限界効果とは、ある説明変数が1単位変化したときに、事象の発生確率がどれだけ変化するかを示す指標です。プロビットモデルの限界効果は、発生確率の式を該当する説明変数で偏微分することで得られます。標準正規分布の確率密度関数を $\phi$ とすると、特定の変数 $x_k$ の限界効果は $\frac{\partial p}{\partial x_k} = \phi(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p) \cdot \beta_k$ と表されます。

この式からわかるように、プロビット回帰における限界効果は一定ではありません。元の確率が50パーセント付近のときに変数の変化が最も確率に大きな影響を与え、確率が0パーセントや100パーセントに近い極端な状態では影響が小さくなります。実務上は、すべてのサンプルの説明変数を平均値に固定して計算する平均値における限界効果や、各サンプルの限界効果を計算してからその平均をとる平均限界効果を算出して解釈を行います。

モデルの評価指標

プロビット回帰モデルの評価には、他の一般化線形モデルと同様の指標が用いられます。モデル全体の有意性を検証するためには尤度比検定が利用され、モデルの当てはまりの良さを評価する指標としてはマクファデンの擬似決定係数などが確認されます。また、複数のモデル間で予測精度と複雑さのバランスを比較検討する際には、赤池情報量基準が変数選択の重要な基準となります。分類精度の確認としては、閾値を設定した上で作成される混同行列からの正解率算出や、受信者操作特性曲線の下面積であるAUCの評価も一貫して行われます。

ロジスティック回帰分析との比較

プロビット回帰とロジスティック回帰の最大の違いは、誤差項に仮定する確率分布に起因します。標準正規分布を仮定するプロビット回帰に対し、ロジスティック回帰は標準ロジスティック分布を仮定します。標準ロジスティック分布の方がわずかに裾が厚い形状をしていますが、多くの場合、実務上の予測確率に致命的な差が生じることはありません。一般的に、ロジスティック回帰の係数に約0.6を掛けた値がプロビット回帰の係数の近似値になります。両者の違いを以下の表に整理します。

比較項目	プロビット回帰分析	ロジスティック回帰分析
誤差項に仮定する確率分布	標準正規分布	標準ロジスティック分布
リンク関数	プロビット関数（累積標準正規分布の逆関数）	ロジット関数（対数オッズ）
係数の直接的な解釈	限界効果の計算が必須となるため解釈はやや複雑	指数変換によりオッズ比として直感的に解釈可能
主な適用分野と選択の背景	計量経済学における効用最大化モデルなど正規性を前提とする分野	医学や疫学などリスク比やオッズ比による要因説明が求められる分野

まとめ

プロビット回帰分析は、潜在変数と標準正規分布という統計学的に洗練された背景を持つ強力な分類手法です。オッズ比という簡便な解釈指標が存在しないため限界効果の計算が必要となりますが、理論的な前提条件が合致する計量経済学などの分野では不可欠なモデリング手法として重宝されています。データの性質や分野の慣例を理解し、ロジスティック回帰と適切に比較検討しながら活用することがデータ分析において重要です。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company