概要:なぜリッジ回帰が必要か
最小二乗法は線形回帰の標準的な推定法ですが、説明変数間に強い相関(多重共線性)が存在する場合、推定量の分散が著しく増大します。設計行列$X \in \mathbb{R}^{n \times p}$がほぼ列線形依存に近い状態では、$(X^TX)^{-1}$の最小固有値が極端に小さくなり、OLS推定量は小さなデータの変動に対しても大きく変動する不安定な値を取ります。
OLS(最小二乗法)の目的関数は次式で与えられます。
$$
\hat{\beta}_{OLS} = \arg\min_{\beta \in \mathbb{R}^p} \|y – X\beta\|_2^2
$$
リッジ回帰はこの目的関数にL2ペナルティ項を加えることで、係数推定の安定性を確保します。L2ペナルティの形式は次の通りです。
$$
\lambda\|\beta\|_2^2 = \lambda\sum_{j=1}^{p}\beta_j^2, \quad \lambda \geq 0
$$
リッジ回帰の目的関数(ペナルティ付き)は以下のように定義されます。
$$
\hat{\beta}_{ridge} = \arg\min_{\beta \in \mathbb{R}^p} \left\{ \|y – X\beta\|_2^2 + \lambda\|\beta\|_2^2 \right\}
$$
正則化パラメータ$\lambda$はペナルティの強さを制御します。$\lambda$が大きいほど係数は縮小し、分散は低下しますが、バイアスが増加します。この交換関係がバイアス・バリアンストレードオフの核心であり、$\lambda$の選択がモデル性能を決定づけます。
リッジ回帰は以下の仮定を前提とします。第一に、応答変数と説明変数の間の関係が線形であること。第二に、誤差項$\varepsilon_i$が互いに独立かつ同一分布に従うこと。これらが成立しない場合、推定量の性質が保証されません。
リッジ回帰には本質的な限界があります。正則化の導入はバイアスの発生を必然的に伴い、OLS推定量の不偏性は失われます。また、$\lambda$の適切な値は問題ごとに異なり、データ依存的な選択が不可欠です。
リッジ回帰の数学的定義
リッジ回帰の目的関数を行列形式で展開すると次式になります。
$$
L(\beta;\, \lambda) = (y – X\beta)^T(y – X\beta) + \lambda\beta^T\beta
$$
$\beta$に関する勾配をゼロと置くことで、閉形式解(解析解)が得られます。
$$
\hat{\beta}_{ridge} = (X^TX + \lambda I_p)^{-1}X^Ty
$$
$\lambda I_p$を加えることで行列$(X^TX + \lambda I_p)$は常に正定値となり、多重共線性がある場合にも安定した逆行列が計算できます。$X^TX$がランク不足である場合にも一意の解が存在する点がOLSとの本質的な差異です。
特異値分解(SVD)$X = UDV^T$($U \in \mathbb{R}^{n\times p}$、$D = \mathrm{diag}(d_1, \ldots, d_p)$、$V \in \mathbb{R}^{p\times p}$)を用いると、リッジ推定量は次のように表現されます。
$$
\hat{\beta}_{ridge} = V\,\mathrm{diag}\!\left(\frac{d_j^2}{d_j^2+\lambda}\right)V^T\hat{\beta}_{OLS}
$$
各主成分方向の縮小因子$\frac{d_j^2}{d_j^2+\lambda} \in (0,1)$が縮小機構として機能します。固有値$d_j^2$が小さい方向(多重共線性に対応する不安定方向)ほど縮小が大きくなり、情報量の少ない方向への係数が抑制されます。
$\lambda \to 0$のとき$\hat{\beta}_{ridge} \to \hat{\beta}_{OLS}$であり、$\lambda \to \infty$のとき$\hat{\beta}_{ridge} \to \mathbf{0}$となります。この極限挙動はモデルの正則化強度を調整する際の理論的な基準となります。
リッジ回帰はL2ノルム制約$\|\beta\|_2^2 \leq t$のもとでの最小二乗問題と等価であり、ラグランジュ双対性を通じて$\lambda$と$t$が対応します。設計行列$X$のランク条件として、OLSがフルランク性を必要とするのに対し、リッジ回帰は$\lambda > 0$のもとでランク不足の場合にも解を持ちます。L2ペナルティは変数の単位に依存するため、変数の標準化(平均0、標準偏差1への変換)が必要です。大規模な$p$の状況ではSVDを活用することで計算効率を改善できますが、$\lambda$が0に近い場合の数値的安定性には注意が必要です。
(Fig2. リッジ係数パス図:λの増加に伴う回帰係数の縮小過程)
バイアス・分散トレードオフの定量化
真のパラメータを$\beta \in \mathbb{R}^p$、誤差項を$\varepsilon \sim (0,\, \sigma^2 I_n)$とします。リッジ推定量の期待値は次式で与えられます。
$$
E\!\left[\hat{\beta}_{ridge}\right] = (X^TX + \lambda I)^{-1}X^TX\beta = \Bigl(I – \lambda(X^TX+\lambda I)^{-1}\Bigr)\beta
$$
したがって、バイアスベクトルは次のようになります。
$$
\mathrm{Bias}\!\left[\hat{\beta}_{ridge}\right] = E\!\left[\hat{\beta}_{ridge}\right] – \beta = -\lambda(X^TX+\lambda I)^{-1}\beta
$$
$\lambda > 0$のとき$\mathrm{Bias} \neq \mathbf{0}$であり、リッジ回帰は不偏推定量ではありません。一方、共分散行列は次式で与えられます。
$$
\mathrm{Var}\!\left[\hat{\beta}_{ridge}\right] = \sigma^2(X^TX+\lambda I)^{-1}X^TX(X^TX+\lambda I)^{-1}
$$
OLSの共分散行列$\sigma^2(X^TX)^{-1}$と比較すると、リッジ回帰はトレース(分散の総量)を削減します。平均二乗誤差(MSE)は次式に分解されます。
$$
MSE\!\left[\hat{\beta}_{ridge}\right] = \left\|\mathrm{Bias}\!\left[\hat{\beta}_{ridge}\right]\right\|_2^2 + \mathrm{tr}\!\left(\mathrm{Var}\!\left[\hat{\beta}_{ridge}\right]\right)
$$
最適な$\lambda$の理論的導出は、直交正規ケース($X^TX = I_p$)を仮定すると閉形式で得られます。この条件のもとでは各成分が独立に縮小され、推定量は$\hat{\beta}_{ridge,j} = \frac{1}{1+\lambda}\hat{\beta}_{OLS,j}$となります。MSEは次式に簡略化されます。
$$
MSE(\lambda) = \frac{\lambda^2\|\beta\|_2^2 + \sigma^2 p}{(1+\lambda)^2}
$$
この式を$\lambda$について微分してゼロと置き、最適正則化パラメータ$\lambda^*$を導出します。
$$
\frac{d\,MSE}{d\lambda} = \frac{2\lambda\|\beta\|_2^2(1+\lambda)^2 – 2(1+\lambda)\left(\lambda^2\|\beta\|_2^2+\sigma^2 p\right)}{(1+\lambda)^4} = 0
$$
分子をゼロとおいて整理すると、
$$
2\lambda\|\beta\|_2^2(1+\lambda) = 2\!\left(\lambda^2\|\beta\|_2^2 + \sigma^2 p\right)
$$
$$
\lambda\|\beta\|_2^2 + \lambda^2\|\beta\|_2^2 = \lambda^2\|\beta\|_2^2 + \sigma^2 p
$$
$$
\lambda^* = \frac{\sigma^2 p}{\|\beta\|_2^2}
$$
この結果は、誤差分散$\sigma^2$が大きいほど、または真の係数ノルム$\|\beta\|_2^2$が小さいほど、より強い正則化が最適となることを示しています。ただし、$\sigma^2$と$\|\beta\|_2^2$はいずれも実際には未知であるため、この式は理論的な最適性の存在を示すものに留まり、直接利用することはできません。上記の閉形式は直交正規ケース($X^TX = I_p$)という仮定のもとでのみ成立し、一般の設計行列ではSVDを介した数値的アプローチが必要です。
$\lambda$の増加に伴い、バイアス項$\|\mathrm{Bias}\|^2$は単調増加し、分散項$\mathrm{tr}(\mathrm{Var})$は単調減少します。MSEはその合計として$\lambda^*$で最小値を取ります。効果的自由度は次式で定義されます。
$$
df(\lambda) = \mathrm{tr}\!\left[X(X^TX+\lambda I)^{-1}X^T\right] = \sum_{j=1}^{p}\frac{d_j^2}{d_j^2+\lambda}
$$
$\lambda = 0$のとき$df(0) = p$(OLSに等価)、$\lambda \to \infty$のとき$df \to 0$となります。信頼区間の導出には誤差項の正規性が追加で要求され、この仮定が成立しない場合はブートストラップ法などの代替手段が必要です。真の係数ベクトル$\beta$が未知の現実において$\lambda^*$を直接評価することは不可能であり、バイアスと分散の最適なトレードオフも事前には確定できません。
(Fig1. 正則化パラメータλとMSE・バイアス・分散の関係)
正則化パラメータの選択法
$\lambda$の選択は汎化性能を決定する重要なステップです。k分割クロスバリデーション(CV)では、データをk個のグループに分割し、各グループを順に検証セットとして残りで推定を行います。k分割CVの定義は次式です。
$$
CV_k(\lambda) = \frac{1}{n}\sum_{i=1}^{n}\left(y_i – \hat{y}_i^{(-k(i))}(\lambda)\right)^2
$$
ここで$\hat{y}_i^{(-k(i))}(\lambda)$は観測値$i$を含まないフォールドで推定したモデルによる予測値です。$CV_k(\lambda)$を最小化する$\lambda$を採用します。
一般化クロスバリデーション(GCV)はLOOCV(一個抜きクロスバリデーション)の計算効率的な近似です。ハット行列$H(\lambda) = X(X^TX+\lambda I)^{-1}X^T$の対角和として有効自由度$df(\lambda)$を定義し、次式で計算します。
$$
GCV(\lambda) = \frac{\|y – X\hat{\beta}_{ridge}(\lambda)\|^2/n}{\bigl(1 – df(\lambda)/n\bigr)^2}
$$
GCVはすべてのサンプルについてモデルを再推定する必要がなく、固定の$\lambda$に対して一度の行列演算で計算できる利点があります。赤池情報量規準(AIC)およびベイズ情報量規準(BIC)のリッジ回帰への適用は次式に基づきます。
$$
AIC(\lambda) = n\log\!\left(\frac{RSS(\lambda)}{n}\right) + 2\,df(\lambda)
$$
$$
BIC(\lambda) = n\log\!\left(\frac{RSS(\lambda)}{n}\right) + \log(n)\cdot df(\lambda)
$$
ここで$RSS(\lambda) = \|y – X\hat{\beta}_{ridge}(\lambda)\|^2$です。複数の基準(CV、GCV、AIC、BIC)が一致する$\lambda$は信頼性が高く、実務ではグリッドサーチによりこれらを同時に評価する方法が広く用いられます。探索空間が広い場合にはベイズ最適化の適用も選択肢となります。
訓練・検証データが独立同一分布に従うことが前提であり、時系列データや層別構造のあるデータにはCVの分割設計に配慮が必要です。サンプルサイズが小さい場合にはCV推定値の変動が大きくなり、信頼性が低下します。LOOCVは不偏性が高いですが計算量が大きく、$n$回の行列演算を要します。基準の選択によって採択される$\lambda$が異なる場合、どの基準を優先するかは問題依存であり、一意の正解は存在しません。
他の回帰手法との比較
リッジ回帰と主要な回帰手法の目的関数を並列比較します。
$$
\text{OLS:} \quad \hat{\beta} = \arg\min_{\beta}\,\|y – X\beta\|_2^2
$$
$$
\text{リッジ回帰:} \quad \hat{\beta} = \arg\min_{\beta}\,\Bigl\{\|y – X\beta\|_2^2 + \lambda\|\beta\|_2^2\Bigr\}
$$
$$
\text{Lasso:} \quad \hat{\beta} = \arg\min_{\beta}\,\Bigl\{\|y – X\beta\|_2^2 + \lambda\|\beta\|_1\Bigr\}
$$
$$
\text{Elastic Net:} \quad \hat{\beta} = \arg\min_{\beta}\,\Bigl\{\|y – X\beta\|_2^2 + \lambda_1\|\beta\|_1 + \lambda_2\|\beta\|_2^2\Bigr\}
$$
各手法のペナルティ構造はL2(リッジ)、L1(Lasso)、L1+L2(Elastic Net)と異なり、解の性質に直接影響します。L2ペナルティは係数を連続的に縮小しますが、係数をちょうどゼロにすることはなくスパース性を持ちません。L1ペナルティを持つLassoは係数のサブセットを厳密にゼロへ縮小し、変数選択効果を発揮します。
幾何学的な解釈では、リッジ回帰の制約領域($\|\beta\|_2^2 \leq t$)は超球であり、Lassoの制約領域($\|\beta\|_1 \leq t$)は超多面体(ひし形)です。目的関数の等高線が超多面体の角点で接触する確率が高いため、Lassoは変数選択を実現します。リッジは等高線が超球と接するため係数が連続的に縮小されますが、厳密なゼロ化は生じません。
多重共線性を持つ変数群(グループ)が存在する場合、Lassoはグループ内の一変数のみを選択する傾向があります。Elastic NetはL1とL2を組み合わせることで、グループを構成する変数を同時に選択または排除するグループ効果を持ちます。計算安定性の面では、L2ペナルティが行列を正則化するリッジ回帰が最も安定しており、Lassoは座標降下法などの反復的な数値解法を要します。各手法の適用前提として、いずれも線形性を仮定し、変数の標準化を推奨します。最適な手法の選択は問題の構造に依存し、変数選択の必要性、説明変数間の相関構造の性質、サンプルサイズによって決まります。
| 特性 | OLS | リッジ回帰 | Lasso |
|---|---|---|---|
| 目的関数のペナルティ | なし | $\lambda\|\beta\|_2^2$(L2) | $\lambda\|\beta\|_1$(L1) |
| バイアス | ゼロ(不偏) | あり(λに比例) | あり(λに比例) |
| 分散 | 高い(多重共線性時) | 低減(λ増加で減少) | 低減(λ増加で減少) |
| スパース性 | なし | なし | あり(変数選択効果) |
| 多重共線性への耐性 | 低い | 高い | 中程度(グループ内1変数選択) |
| 閉形式解 | あり | あり | なし(反復解法が必要) |
金融工学での応用:ポートフォリオ最適化
金融市場において、複数の経済指標や市場変数(業種指数、マクロ経済変数等)は互いに高い相関を持ちます。同一セクターの業種指数は概ね正の相関を示し、OLSによる資産価格モデルを推定すると多重共線性により係数推定が不安定になります。リッジ回帰はこの推定リスクを軽減する手段として利用されます。
資産価格と説明変数の線形モデルは次式で定義されます。
$$
r_t = X_t\beta + \varepsilon_t, \quad t = 1, \ldots, T
$$
ここで$r_t$は資産収益率ベクトル、$X_t$は経済指標・市場変数の行列、$\beta$は推定対象の係数ベクトルです。リッジ推定を用いたウェイト計算では、推定された係数$\hat{\beta}_{ridge}$を用いてシグナルを構築し、ポートフォリオウェイト$w = f(\hat{\beta}_{ridge})$を決定します。$\lambda$の選択によりウェイトの安定性が制御され、ターンオーバーとパフォーマンスのトレードオフが生じます。
バックテストにおけるアウトオブサンプル性能の評価指標として、情報比とOOS決定係数が用いられます。
$$
IR = \frac{E\!\left[r^{OOS}\right]}{\mathrm{SD}\!\left[r^{OOS}\right]}
$$
$$
R^2_{OOS} = 1 – \frac{\displaystyle\sum_{t \in \mathrm{OOS}}(r_t – \hat{r}_t)^2}{\displaystyle\sum_{t \in \mathrm{OOS}}(r_t – \bar{r}_{IS})^2}
$$
ここで$\bar{r}_{IS}$はインサンプル期間の平均収益率です。$R^2_{OOS} > 0$はモデルが単純な平均予測を上回ることを示しますが、取引コストやリスク調整後の評価が実務では重要です。
リッジ回帰は推定リスクとモデルリスクの双方を低減し、過去データへの過剰適合を抑制するため、サンプル外の予測安定性を向上させます。バックテストはOOSデータで性能を検証する標準的な手法であり、将来の汎化能力の代理指標となります。
定常性(時系列データが時不変の統計的性質を持つこと)および市場の線形性の仮定が前提となります。これらが成立しない場合、推定値の信頼性は低下します。
金融市場のレジームシフト(市場構造の突然の変化)には正則化のみでは対処できず、推定係数の意味が変化するリスクが残ります。テールリスク(極端な市場イベント)は線形モデルの枠組みでは捉えられず、正則化を施したリッジ回帰も例外ではありません。また、過去データへの適合と未来の予測能力の乖離は原理的に排除できず、これはモデルの本質的な制約です。リッジ回帰は推定の安定性を向上させますが、市場予測可能性そのものを保証するものではありません。

