Top 5 This Week

関連記事

9. 変数選択法:AIC・BIC・ステップワイズ法

- 本サイト運営者のサービスの紹介 -

変数選択の必要性と課題

回帰モデルを構築するとき、予測精度を高めるために多数の説明変数を候補として用意することが多くあります。しかし、候補変数をすべて無条件に投入すると、モデルが訓練データの偶発的なパターンまで捉えてしまい、新しいデータへの予測精度が低下する過学習が生じます。一方、関連する変数を過度に削減するとモデルの表現能力が下がり、バイアスが増大します。この二律背反がモデル複雑性の制御として知られる変数選択問題の核心です。

新規観測値 $(x_0, y_0)$ に対する予測誤差は、バイアス・分散・既約誤差の三成分に分解されます。

$$E\!\left[(y_0 – \hat{f}(x_0))^2\right] = \mathrm{Bias}^2\!\left[\hat{f}(x_0)\right] + \mathrm{Var}\!\left[\hat{f}(x_0)\right] + \sigma^2$$

変数を過剰に投入するとパラメータの推定に多くの自由度が消費され、分散成分が増大します。変数を過度に削減すると真の関係を捉えられなくなり、バイアス成分が増大します。最小の予測誤差を達成するには、バイアスと分散の均衡を取る変数集合を選ぶ必要があります。

$k$ 個のパラメータを持つモデルでは、残差分散の不偏推定量は次の式で与えられます。

$$\hat{\sigma}^2 = \frac{RSS}{n – k}$$

分母の $n – k$ が残差自由度を表し、$k$ が大きくなるほど自由度が減少し、$\hat{\sigma}^2$ の推定精度が低下します。特に標本数 $n$ が有限の場合、不必要な変数の追加はパラメータ推定を不安定にし、結果として外挿予測の信頼性を損ないます。

この枠組みは、変数間に真の効果差が存在し(すなわち真のモデルにおいて一部の係数のみが非ゼロ)、観測量 $n$ が有限であることを前提とします。しかし、真の変数集合は実際には未知であり、選択の問題は常に不確実性を伴います。解釈可能性の観点からも、係数が多すぎるモデルはマーケティングや医学などの応用分野で意思決定の根拠として利用しにくくなります。

情報量規準:AIC と BIC

情報量規準はモデルのあてはまりの良さと複雑性に対するペナルティを組み合わせ、モデル比較の基準を与えます。AIC(赤池情報量規準)は、真の分布 $f$ とモデルによる近似分布 $\hat{f}$ の間のカルバック・ライブラー情報量の推定値を最小化するモデルを選ぶ基準です。カルバック・ライブラー情報量は次の式で定義されます。

$$D_{KL}(f \| g) = \int f(x)\log\frac{f(x)}{g(x)}\,dx$$

この情報損失の期待値を推定した結果として、AIC は次の式で定義されます。

$$\mathrm{AIC} = -2\ell(\hat{\theta}) + 2k$$

ここで $\ell(\hat{\theta})$ は最大化された対数尤度、$k$ はモデルに含まれるパラメータ数です。第一項はモデルのデータへのあてはまりを評価し、第二項はパラメータ数に比例する複雑性ペナルティです。正規線形モデルでは以下の等価な形式が用いられることもあります。

$$\mathrm{AIC} = n\log\!\left(\frac{RSS}{n}\right) + 2k$$

BIC(ベイズ情報量規準)はモデルの事後確率を漸近的に最大化する観点から導出され、標本サイズ $n$ に依存する重いペナルティを課します。

$$\mathrm{BIC} = -2\ell(\hat{\theta}) + k\log n$$

正規線形モデルでの等価表現は次の通りです。

$$\mathrm{BIC} = n\log\!\left(\frac{RSS}{n}\right) + k\log n$$

両規準のペナルティ項を比較すると、$\log n > 2$、すなわち $n > 7$ のとき BIC は AIC より大きなペナルティを変数追加に課します。その結果 BIC はより少ない変数を採択する傾向があります。AIC は小標本では分散が大きく過学習の傾向があり、BIC は大標本において変数を過度に除去する傾向があります。

これらの規準は残差が正規分布に従うことを前提とし、真のモデルがモデル候補の有限集合に含まれることを仮定します。真のモデルが候補集合に含まれない場合、最小 AIC(BIC)のモデルは相対的に最良の近似にとどまるという解釈が適切です。

モデル複雑性と予測誤差の推移:AIC・BICペナルティと過学習の関係

(Fig1. モデル複雑性と予測誤差:AIC/BICによるペナルティと過学習)

ステップワイズ法の理論と手順

ステップワイズ法は変数の追加または除去を逐次的に繰り返すグリーディー探索手続きです。変数の全組み合わせを評価する全探索は $2^p$ 通りの候補を検討する必要があり、変数数が増えると計算上不可能になります。ステップワイズ法はこの問題を計算効率よく近似的に解く手法です。

前進法は変数がゼロの空モデルから出発し、各ステップで残差二乗和の削減量が最大となる変数を一つずつ追加します。現在のモデルに候補変数 $X_j$ を加えたときの変化を評価する F 統計量は次の式で算出されます。

$$F_{\mathrm{add}} = \frac{(RSS_{\mathrm{現在}} – RSS_{\mathrm{追加後}}) / 1}{RSS_{\mathrm{追加後}} / (n – k – 1)}$$

この F 統計量に対応する $p$ 値が閾値 $\alpha_{\mathrm{in}}$(例:0.05)を下回る変数の中で最も $p$ 値が小さい変数を採用し、条件を満たす変数がなくなった時点で停止します。後退法は全変数を含む完全モデルから出発し、各ステップで除去してもあてはまりへの影響が最小の変数を一つずつ削除します。

$$F_{\mathrm{remove}} = \frac{(RSS_{\mathrm{除去後}} – RSS_{\mathrm{現在}}) / 1}{RSS_{\mathrm{現在}} / (n – k)}$$

対応する $p$ 値が閾値 $\alpha_{\mathrm{out}}$(例:0.10)を超える変数の中から最も影響が小さいものを除去し、条件を満たす変数がなくなった時点で停止します。変数増減法は前進法と後退法を各ステップで交互に適用し、変数の追加と削除の両方を検討することで局所最適解からの脱出を試みます。

これらの手法は各ステップでの貪欲な決定が全体的な最適に近いことを前提とし、$p$ 値閾値の選択が最終的な変数集合に大きく影響します。しかし、グリーディー探索の性質上、大域最適が保証されません。変数間の交互作用や相互効果が存在する場合、重要な変数集合を見落とす可能性があります。また、後退法は変数数 $p$ が標本数 $n$ を超える場合($p > n$)には完全モデルが定義できないため適用できません。

前進法の逐次変数追加とp値判定のアルゴリズムフロー

(Fig2. ステップワイズ法のアルゴリズムフロー(前進法の例))

手法名 初期状態 操作 計算量 最適性保証 高次元適用可能性
前進法 空モデル(変数ゼロ) 変数を逐次追加 $O(p^2)$ 程度 局所的のみ $p > n$ でも適用可
後退法 完全モデル(全変数) 変数を逐次除去 $O(p^2)$ 程度 局所的のみ $p > n$ では不適用
変数増減法 空または部分モデル 追加・除去を交互に実行 前進・後退より高い 局所的のみ $p < n$ の場合に適用

クロスバリデーションによる検証

クロスバリデーション(交差検証)はデータを $k$ 個のグループ(fold)に分割し、各グループを順番にテストセットとして用いることで汎化誤差を実証的に推定する手法です。情報量規準が漸近的・解析的な近似に基づくのに対し、交差検証はデータそのものから汎化誤差を評価するため、分布仮定への依存が少ない点が特長です。

$k$ 分割交差検証の予測誤差は次の式で定義されます。

$$\mathrm{CV}_k = \frac{1}{k}\sum_{i=1}^{k}\frac{1}{|V_i|}\sum_{j \in V_i}\!\left(y_j – \hat{y}_j^{(-i)}\right)^2$$

ここで $V_i$ は第 $i$ 折のテストセット、$\hat{y}_j^{(-i)}$ は第 $i$ 折のデータを除いて推定されたモデルによる予測値です。$k = n$ の特殊ケースが LOO-CV(leave-one-out 交差検証)であり、線形モデルではハット行列の対角要素 $h_{ii}$ を用いた解析的公式で効率的に計算できます。

$$\mathrm{LOO\text{-}CV} = \frac{1}{n}\sum_{i=1}^{n}\!\left(\frac{y_i – \hat{y}_i}{1 – h_{ii}}\right)^2$$

交差検証スコアの不確実性を定量化するために、各折の誤差の標準誤差を算出します。

$$\mathrm{SE}(\mathrm{CV}) = \sqrt{\frac{1}{k(k-1)}\sum_{i=1}^{k}\!\left(\mathrm{MSE}_i – \overline{\mathrm{MSE}}\right)^2}$$

変数選択においては、$\mathrm{CV}_k$ を最小にするモデルを選ぶか、「$\mathrm{CV}_k$ の最小値から $1 \times \mathrm{SE}$ 以内の範囲で最も単純なモデル」を採択する 1-SE ルールが用いられることもあります。この後者の方針は過学習への保守的な対処として有効です。

交差検証の前提は訓練データとテストデータが同一の確率分布から抽出されていることです。$k$ の選択は恣意的であり、一般に 5 ~ 10 fold が推奨されますが、小標本ではデータ分割の変動により交差検証スコアが不安定になります。また計算コストはモデル適合を $k$ 回繰り返すことに比例して増加し、変数数が多い場合には総計算量が大きくなります。

交差検証誤差とAICの変数選択精度の比較:標本数・変数数条件別

(Fig3. クロスバリデーション誤差と AIC の比較:データ規模別)

他の変数選択基準の比較

AIC・BIC・交差検証以外にも、用途や仮定に応じた複数の変数選択基準が提案されています。Mallows の $C_p$ は予測誤差の不偏推定を目的とした基準で、$p$ 変数を含むモデルに対して次の式で定義されます。

$$C_p = \frac{RSS_p}{\hat{\sigma}^2} – n + 2p$$

ここで $\hat{\sigma}^2$ は全変数を含む完全モデルから推定した誤差分散です。真のモデルが候補集合に含まれる場合、$E[C_p] \approx p$ となるため、$C_p$ が変数数 $p$ に近いモデルを選択基準とします。$C_p$ は最小二乗法の誤差分散推定量の不偏性に依存するため、誤特定されたモデルや外れ値の影響を受けやすい点に注意が必要です。

自由度調整済み決定係数は、変数を追加するだけで $R^2$ が単調増加する性質を補正した指標です。

$$\bar{R}^2 = 1 – \frac{RSS/(n-p)}{TSS/(n-1)}$$

PRESS(予測残差二乗和)は LOO-CV と数値的に等価であり、モデルの予測能力を観測ごとの残差から直接評価します。

$$\mathrm{PRESS} = \sum_{i=1}^{n}\!\left(y_i – \hat{y}_i^{(-i)}\right)^2$$

GCV(一般化交差検証)はハット行列の平均対角要素を利用して LOO-CV を近似した基準です。

$$\mathrm{GCV}(p) = \frac{RSS_p / n}{\left(1 – p/n\right)^2}$$

これら各基準はそれぞれ異なる仮定の下で最適性を持ちます。どの基準を採用するかはデータ規模・目的・計算資源に依存し、基準の選択そのものが主観的な判断を伴います。

基準名 形式 最小化対象 推奨データ規模 計算コスト
AIC(赤池情報量規準) $-2\ell + 2k$ KL情報量損失の近似 中~大規模 低(解析的)
BIC(ベイズ情報量規準) $-2\ell + k\log n$ 事後確率の最大化 大規模 低(解析的)
Mallows $C_p$ $RSS_p/\hat{\sigma}^2 – n + 2p$ 予測誤差の不偏推定 中規模($p \ll n$) 低(完全モデル必要)
自由度調整済み $\bar{R}^2$ $1 – \frac{RSS/(n-p)}{TSS/(n-1)}$ 自由度補正後の説明力 全般 低(解析的)
交差検証(CV) $k$ 分割平均 MSE 汎化誤差の実証的推定 中規模以上 高($k$ 回再推定)

応用例:マーケティング分析での変数選択

マーケティング分析における顧客購買応答予測は変数選択の典型的な応用領域です。顧客の人口統計属性(年齢・性別・居住地域)、行動履歴(サイト閲覧頻度・過去購買金額・最終購買からの経過日数)、キャンペーン属性(割引率・接触チャネル・接触タイミング)など、数十種類の候補特徴量から最適な部分集合を特定することが求められます。

候補変数が多数存在する場合、変数間に多重共線性が生じやすく、最小二乗推定量の分散が増大します。特に、同一顧客セグメントに対する複数のキャンペーン変数は相関が高く、個々の係数推定が不安定になりやすい点に注意が必要です。変数選択により冗長な変数を除外することで、係数推定の安定性が向上し、各特徴量のマーケティング効果を解釈しやすくなります。

前進法や AIC 基準を用いた変数選択では、まずクリック率や過去購買金額などの行動変数が採択され、次にデモグラフィック変数が評価されるというように、影響力の大きな変数から段階的に絞り込む過程が可視化されます。解釈可能性と予測精度のバランスを保つことで、施策の優先付けに根拠を持たせた意思決定が可能となります。

この応用では、マーケティングデータが線形回帰の仮定(線形性・等分散性・残差の正規性)を概ね満たすことを前提とします。しかし、実際の顧客応答は非線形交互作用(価格感度と年齢の交互作用など)や時間依存効果(季節性・施策の経時的減衰)を含む場合が多く、線形変数選択の適用範囲は限定的です。顧客セグメント間で最適な変数集合が異なる場合には、セグメント別の独立した変数選択が必要となります。

正則化法との関係と拡張

ステップワイズ法は変数を採用または除外のいずれかに振り分ける離散的な選択を行います。これに対し、Ridge 回帰(L2 正則化)と Lasso 回帰(L1 正則化)は係数を連続的に縮小することで変数選択に類似した効果を実現します。

Ridge 回帰の最適化問題は次の式で表されます。

$$\hat{\beta}^{\mathrm{Ridge}} = \arg\min_{\beta}\!\left\{\|y – X\beta\|_2^2 + \lambda\|\beta\|_2^2\right\}$$

Ridge は係数を連続的にゼロ方向へ縮小しますが、厳密なゼロは生じません(ソフト選択)。多重共線性の問題を緩和する効果はありますが、変数の完全な除外は実現されません。一方、Lasso 回帰は L1 ペナルティを使用します。

$$\hat{\beta}^{\mathrm{Lasso}} = \arg\min_{\beta}\!\left\{\|y – X\beta\|_2^2 + \lambda\|\beta\|_1\right\}$$

L1 ペナルティは凸関数の角点で勾配が不連続となる性質により、係数を厳密にゼロへ縮退させます(疎性の誘導)。正則化パラメータ $\lambda$ を大きくするほど多くの係数がゼロとなり、自動的な変数選択が実現されます(ハード選択)。これがステップワイズ法との本質的な類似点です。

普通最小二乗法(OLS)との対比では、ステップワイズ法が離散的に変数を包含・排除するのに対し、正則化法は連続的な係数縮小によって段階的に変数の寄与を抑制します。主成分回帰は変数を直交成分に射影してから次元を削減する手法であり、多重共線性への耐性は高いものの、元の変数への係数解釈が困難という点でステップワイズ法や正則化法と本質的に異なります。

ステップワイズ法は変数数が小程度から中程度のデータに対して計算効率が高く係数の解釈が容易ですが、大規模高次元設定では計算量が増大します。この状況では Lasso や Elastic Net 等の正則化法が実用的な選択肢となります。

仮定の検証と実践的な注意事項

変数選択を適用する際には、選択プロセスに内在する統計的多重性の問題を認識する必要があります。複数の候補モデルを同一データで比較する行為は、事実上複数の仮説検定を繰り返すことに相当し、偽陽性の発生確率が増大します。ステップワイズ法による各ステップの $p$ 値は、単一の事前設定された検定の $p$ 値とは意味が異なり、額面通りに解釈することは適切ではありません。

選択後の推定精度低下も重要な問題です。変数選択と係数推定を同一データで行うと、選択バイアスにより係数の推定値が実際より有意に見え、信頼区間が実際より狭く算出される傾向があります。この問題は特に「ステップワイズ選択後に最終モデルの $p$ 値で変数の有意性を判断する」という慣行で顕在化します。選択の不確実性を適切に評価するためには独立した外部データでの検証が必要です。

情報漏洩を防ぐためには、変数選択を含む全前処理手順を交差検証のループ内部で実行することが必要です。変数選択を訓練データ全体に対して先に実施し、その後で交差検証を行うと汎化誤差が過小評価されます。

選択されたモデルが真の関係を妥当に近似するという前提は、選択後の解釈の基盤となります。しかし、相関の強い変数グループが存在する場合、グループ内のどの変数が選択されるかは標本の確率的変動に依存します。異なるデータセットでは異なる変数集合が選択される可能性があり、単一の変数選択結果を「正解」として過信することは危険です。ブートストラップ安定性分析など、選択結果のバリアビリティを評価する手法を補助的に用いることが推奨されます。

Popular Articles