モデル選択の問題設定:適合度と複雑さのトレードオフ
一般化線形モデル(GLM)において、パラメータ数を増やすほど訓練データへの適合度は向上しますが、過適合により未知データへの予測精度が低下するリスクが生じます。この適合度と複雑さのトレードオフを定量化する枠組みがモデル選択です。
GLMの対数尤度は次のように定義されます。
$$\log L(\beta;\, y) = \sum_{i=1}^{n} \log f(y_i \mid \mu_i(\beta),\, \phi)$$
ここで$f$は指数型分布族の確率密度関数、$\mu_i(\beta)$はリンク関数を介した期待値、$\phi$は分散パラメータです。観測データが指数型分布族に従うことがGLMの基本的な前提です。
モデルの基準点として、飽和モデルと帰無モデルが定義されます。飽和モデルは各観測値に対して独立のパラメータを割り当てたモデルであり、その対数尤度$\log L_{\text{sat}}$はデータに完全に適合した理論上の上限値となります。帰無モデルはすべての説明変数を除いた切片のみのモデルです。GLMにおける逸脱度は$D = -2(\log L(\hat{\beta};\, y) – \log L_{\text{sat}})$として定義され、飽和モデルからの乖離を測る指標として機能します。
ネストモデルとは、一方のモデルが他方のパラメータに制約を課した関係にあるモデルの組です。この概念は後述の尤度比検定の基礎をなします。なお、情報量基準はランダム効果モデルやペナルティ付きモデル(スプライン平滑化等)に対しては有効パラメータ数の定義が複雑になるため、適用に際して注意が必要です。
赤池情報量基準(AIC)の理論とGLMへの適用
赤池情報量基準(AIC)は、真の分布$f$と近似モデル$g$との乖離を測るKL情報量$I(f;\, g)$の期待推定量を最小化するという情報理論的観点から導出されます。KL情報量は次のように定義されます。
$$I(f;\, g) = \int f(y) \log \frac{f(y)}{g(y \mid \hat{\theta})} \, dy$$
この期待値に対して偏差修正を施した結果として、AICは次式で表されます。
$$\text{AIC} = -2 \log L(\hat{\beta};\, y) + 2k$$
ここで$k$はモデルの自由パラメータ数です。第1項は適合度の評価、第2項はパラメータ数によるペナルティを表します。このペナルティは$k$個のパラメータを推定することによる偏りの補正に由来する情報理論的修正項です。標本サイズ$n$が小さい場合には小標本補正版のAICcが推奨されます。
$$\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n – k – 1}$$
$n$が十分大きくなるにつれて$\text{AICc} \to \text{AIC}$となるため、AICcはAICの汎化版として位置づけられます。AICは大標本漸近理論に基づいており、標本サイズが十分大きい場合に妥当な基準となります。
GLMへの適用において、ポワソン回帰や二項ロジスティック回帰では分散パラメータ$\phi = 1$と固定されるため、$k$は回帰係数の個数のみとなります。ガンマ回帰のように$\phi$を推定する場合は$k$に1を加算します。quasi-尤度を用いたモデルではAICが定義できないため適用は不可です。AICの比較は同一のデータセットかつ同一の応答変数に基づくモデル間でのみ有効です。
実践的な解釈基準として、$\Delta\text{AIC} = \text{AIC}_i – \text{AIC}_{\min}$が2未満であれば実質的に同等と判断され、4〜7の範囲では差が認められ、10を超える場合はAIC最小モデルが支持されます。真のモデルが候補集合に含まれていない場合には、予測精度の観点での最良モデルの選択は保証されません。
ベイズ情報量基準(BIC)の理論とAICとの比較
ベイズ情報量基準(BIC)は、モデル証拠(周辺尤度)のLaplace近似から導出されます。パラメータの事前分布を適切に設定したとき、モデル$M_j$に対する周辺尤度の対数の漸近展開を整理すると、次の基準が得られます。
$$\text{BIC} = -2 \log L(\hat{\beta};\, y) + k \log n$$
AICのペナルティ$2k$と比べ、BICのペナルティは$k \log n$であり、$n \geq 8$においてBICがより厳しいペナルティを課します。このサンプルサイズ依存型のペナルティが、大標本での一致性、すなわち真のモデルを漸近的に選択する性質をBICに与えます。
Bayes因子$\text{BF}_{jl}$とBICの差の間には近似的な対応関係があり、$-2\log \text{BF}_{jl} \approx \Delta\text{BIC}$が成立します。この対応により、BICの差がモデル証拠の強さの指標として解釈されます。$\Delta\text{BIC}$の実践的解釈基準は、2未満が弱い証拠、2〜6が正の証拠、6〜10が強い証拠、10超が非常に強い証拠とされます。
AICとBICの設計思想の違いを整理すると、AICは予測精度の最適化(効率性)を目的とし、BICは真のモデルの同定(一致性)を目的とします。大標本では$k \log n$がAICのペナルティ$2k$より大きくなるため、BICはより少ないパラメータのモデルを選択する傾向があります。
BICの一致性は、真のモデルが候補集合に含まれるという前提の下で成立します。真のモデルが候補集合外にある場合、この性質は担保されません。小標本では$k \log n$のペナルティが過大となり、統計的に有益な変数が除外されるリスクがあります。準尤度を用いる場合はAIC同様BICの適用も慎重な解釈が必要です。
(Fig1. パラメータ数とAIC・BICの変化:複雑さと適合度のトレードオフ)
尤度比検定とネストモデルの比較
ネストモデルの比較において、尤度比検定は帰無仮説として「縮小モデルが正しい」という制約を検定する手法です。完全モデルの対数尤度$\log L_{\text{full}}$と縮小モデルの対数尤度$\log L_{\text{red}}$を用いて、尤度比統計量は次のように定義されます。
$$LR = 2(\log L_{\text{full}} – \log L_{\text{red}})$$
$LR$は帰無仮説の下で漸近的に$\chi^2(\Delta df)$分布に従います。ここで$\Delta df$は完全モデルと縮小モデルのパラメータ数の差、すなわち制約されたパラメータ数です。GLMの文脈では逸脱度差として次のように表されます。
$$\Delta D = D_{\text{red}} – D_{\text{full}} = LR$$
$\Delta D$を$\chi^2(\Delta df)$分布で評価することによってp値が算出されます。Analysis of Devianceテーブルは各変数の追加に伴う逸脱度の変化と対応する自由度・p値を整理した表であり、各変数のモデルへの寄与を系統的に評価できます。自由度の差$\Delta df$は制約されたパラメータの個数に相当し、この値が尤度比検定の分布を規定します。
Wald検定は係数の推定値と標準誤差から構成される検定であり、大標本では尤度比検定と漸近的に等価ですが、小標本では両者の結果が乖離することがあります。一般にサンプルサイズが限られた状況では尤度比検定の方が信頼性が高いとされます。
尤度比検定の適用には2つの前提が必要です。比較する2つのモデルが互いにネストしていること、すなわち縮小モデルが完全モデルのパラメータに線形制約を加えた関係にあることが第1の前提です。漸近$\chi^2$近似が成立するために観測数が十分大きいことが第2の前提です。非ネストモデルの比較には尤度比検定は適用できず、Vuong検定等の代替手法が必要となります。quasi-尤度を使用するモデルでは$LR$の$\chi^2$近似が成立しないため、逸脱度差をスケール調整した$F$統計量への変換が必要です。
(Fig2. 尤度比検定統計量とχ²分布:棄却域と観測値の位置関係)
段階的変数選択の戦略と統計的限界
候補変数集合から最適な変数セットを選ぶ戦略として、段階的変数選択が広く用いられます。前進選択は切片のみのモデルから出発し、AICを最も改善する変数を1つずつ追加します。後退消去は全変数を含む完全モデルから出発し、除去によってAICが改善する変数を1つずつ削除します。ステップワイズ法はこれら両方向の操作を繰り返す手法です。
AIC基準による変数の追加または除去の判断規則は、$\Delta\text{AIC} < 0$のときのみ変更を採用するというものです。すなわち、変数を追加または除去した後のAICが現在のモデルのAICを下回る場合にのみ、その操作が適用されます。p値基準と比較した場合、AIC基準は有意水準という恣意的な閾値を持たず、情報量的なペナルティを通じた比較を行います。
all-subsets selectionは$2^p$個の全モデルを網羅的に比較する手法ですが、変数数$p$が増加するにつれて計算量が指数的に増加するため、大規模なモデル空間では実行が困難です。段階的変数選択はこれを局所的な探索で近似します。この手法にはモデル空間が有限で候補変数があらかじめ特定されているという前提があります。
段階的選択の統計的限界として次の3点が挙げられます。第1に、各ステップで複数の仮説検定が繰り返されるため多重検定問題が生じ、p値が膨張します。第2に、変数選択の結果はデータの微小な変動に敏感であり、bootstrap再サンプリングによる安定性評価では再現性が低いことが確認されています。第3に、選択された変数の係数推定値は選択バイアスによって過大推定となる傾向があります。
(Fig3. 後退消去法における各ステップのAIC変化:変数除去の判断プロセス)
マーケティング分析における実践的応用
ECサイトにおける顧客コンバージョン率の予測は、マーケティング分析でGLMモデル選択が実際に活用される場面の一例です。応答変数をコンバージョンの有無(0/1)として、ロジスティック回帰モデルを設定します。説明変数の候補にはページ閲覧数・滞在時間・商品閲覧カテゴリ数・過去購買金額・広告クリックの有無・曜日など多数の特徴量が考えられます。
分析の最初のステップとして、候補説明変数間の多重共線性のスクリーニングを実施します。相関係数行列や分散インフレ係数を用いて高度に相関する変数を特定し、ドメイン知識に基づいて代表変数を選定します。この前処理によってモデル選択の安定性が向上します。
その後、AICによる変数セットの逐次比較を実施します。具体的には完全モデルのAICを基準として後退消去を適用し、AICが低下する変数の除去を繰り返します。各ステップで$\Delta\text{AIC}$を記録し、統計的観点から支持されるモデルを絞り込みます。
実務ではビジネス解釈可能性と統計的基準のバランスが重要です。AICが最小となるモデルが選択された場合でも、因果的解釈が困難な変数やキャンペーン設計に反映できない変数は、ビジネス上の観点から除外を検討します。AICによる変数選択はあくまで統計的関連性の強さに基づく評価であり、相関と因果を区別する必要があります。
モデルの外部検証として、データを訓練データとテストデータに分割し、選択されたモデルのテストデータ上での予測精度を評価します。これにより、AICによる選択が過適合を招いていないかを確認できます。AIC最小モデルが必ずしも最良の予測モデルとは限りません。マーケティングデータには多重共線性・季節性・サンプリングバイアスが内在することが多く、これらが変数選択結果を不安定にさせます。自動変数選択のみに依存せず、ドメイン知識との組み合わせによる解釈が不可欠です。
モデル選択指標の比較と選択指針
AIC・BIC・尤度比検定・交差検証という各指標は、設計思想の違いから目的に応じた使い分けが求められます。予測精度の最大化を目的とする場合はAICまたは交差検証が適しています。特に残差交差検証(LOO-CV)とAICは漸近的に等価であることが知られており、AICはLOO-CVの近似的な代理指標として機能します。真のモデル構造の同定を目的とする場合はBICが適切であり、大標本では$k \log n$の厳しいペナルティによりAICより少ない変数のモデルが選択されます。変数の因果的解釈を目的とする場合は、理論的に意味のある変数セットを事前に特定し、尤度比検定によって各変数の寄与を評価するアプローチが有効です。
非ネストモデルの比較では、尤度比検定は適用できないため、Vuong検定を用います。Vuong検定は2つの非ネストモデルの対数尤度比の分布に基づき、両モデルが等価であるという帰無仮説を検定する手法です。
LASSO(最小絶対収縮・選択作用素)は正則化を通じて変数選択を行う手法であり、AIC・BICによる離散的な変数選択とは設計思想が異なります。LASSOは係数を連続的に縮小することで多重共線性に対して頑健であり、高次元設定での変数選択に適しています。一方でAIC・BICはモデル間の情報量比較に適した枠組みを提供します。
いずれの指標も誤設定モデルに対しては限定的な保証しか提供しません。指数型分布族の仮定が成立しない場合やリンク関数の設定が不適切な場合には、AICやBICの最小化が実質的な最良モデルへの収束を保証しません。ベイズGLMへの拡張では、WAIC(広義赤池情報量基準)やLOO-CVがより一般的な基準として機能し、これらへの移行が発展的な選択肢となります。
| 指標 | 定義式 | ペナルティ | 適用条件 | 適した目的 |
|---|---|---|---|---|
| AIC | $-2\log L + 2k$ | $2k$(定数) | 同一データ・同一応答変数。quasi-モデル不可 | 予測精度の最大化 |
| BIC | $-2\log L + k\log n$ | $k\log n$($n$依存) | 真のモデルが候補集合内に存在する場合。大標本 | 真のモデル構造の同定 |
| 尤度比検定 | $LR = 2(\log L_{\text{full}} – \log L_{\text{red}})$ | なし(検定統計量) | 2モデルがネスト関係。漸近$\chi^2$が成立する標本数 | 変数の有意性評価・説明目的 |

