なぜElastic Netが必要か
正則化線形回帰の主要な手法であるリッジ回帰とLasso回帰はそれぞれ異なる限界を持ちます。Lasso回帰はL1ペナルティにより係数を厳密にゼロに収縮させる変数選択が可能ですが、予測変数間に強い相関が存在するとき、相関した変数グループから統計的に等価な複数の変数のうち概ね1つを任意に選択し、残りを除外する不安定な挙動を示します。この性質を群効果の欠如と呼びます。どの変数が選択されるかは小さなデータの揺らぎに依存するため、結果の再現性が低下します。
一方、リッジ回帰はL2ペナルティにより係数を連続的に収縮させますが、係数がゼロに達することはなく変数選択の機能を持ちません。多重共線性に対して安定した推定量を与えますが、すべての変数が最終モデルに残るため解釈可能性が低下します。
Elastic Netは、L1ペナルティとL2ペナルティを線形結合した混合正則化によりこれらの問題を解決する手法です。L2ペナルティが多重共線性に対する安定性を保証し、L1ペナルティが疎な解を誘導します。さらに、相関した変数を同時に選択または除外するグループ効果が成立します。これにより、変数選択の安定性と予測精度を同時に達成することが可能になります。
目的関数と混合ペナルティの定式化
観測ベクトル$y \in \mathbb{R}^n$、計画行列$X \in \mathbb{R}^{n \times p}$、回帰係数ベクトル$\beta \in \mathbb{R}^p$に対して、Elastic Netの目的関数は次のように定義されます。
$$
\hat{\beta} = \arg\min_{\beta \in \mathbb{R}^p} \left\{ \|y – X\beta\|_2^2 + \lambda\left[\alpha\|\beta\|_1 + \frac{1-\alpha}{2}\|\beta\|_2^2\right] \right\}
$$
ここで$\lambda > 0$は正則化全体の強度を制御するパラメータであり、$\alpha \in [0, 1]$はL1成分とL2成分の混合比を指定するパラメータです。$\alpha = 0$のとき正則化項は$\frac{\lambda}{2}\|\beta\|_2^2$となりリッジ回帰に帰着します。$\alpha = 1$のとき正則化項は$\lambda\|\beta\|_1$となりLasso回帰に帰着します。中間の$\alpha$はL1とL2の凸結合として機能し、両方の性質を合わせ持ちます。
ハイパーパラメータ空間は$\alpha \times \lambda$の2次元空間として構成されます。$\lambda$が大きくなると全体の収縮が強まり、$\lambda \to \infty$の極限では全係数がゼロに収束します。$\alpha$はリッジ回帰とLassoの性質の混合比を連続的に調整する役割を担います。
L1とL2ペナルティの組み合わせは双重収縮と呼ばれる効果をもたらします。L2ペナルティが係数を均等に収縮させた上で、L1ペナルティが一部の係数を厳密にゼロへと収縮させます。この二段階の収縮により、単独のLassoよりも安定した変数選択が実現されます。
誤差項$\varepsilon = y – X\beta$の各成分が互いに独立かつ同一の分布に従う(i.i.d.)という仮定が設定されます。この仮定のもとで、目的関数の最小化が統計的に一貫した推定量を与えます。
(Fig1. 正則化パスの比較:Ridge・Lasso・Elastic Net(α=0.5)における係数のλに対する変化)
推定アルゴリズム:座標降下法の拡張
Elastic Netの目的関数はL1ペナルティの存在により閉形式の解析解を持ちません。実用的な最適化には座標降下法が適用されます。座標降下法では、各反復において$j$番目の係数$\beta_j$のみを最適化し、残りの係数$\beta_{-j}$を定数として固定します。この1変数最適化を$j = 1, \ldots, p$に対して順次繰り返し、収束するまで反復します。
$j$番目の係数の偏残差を$r_j = y – X_{-j}\hat{\beta}_{-j}$とするとき、各反復での更新式はElastic Net用のソフト閾値演算子を用いて次のように表されます。
$$
\hat{\beta}_j \leftarrow \frac{S\!\left(\dfrac{1}{n}X_j^{\top}r_j,\ \lambda\alpha\right)}{1 + \lambda(1-\alpha)}
$$
ここで$S(z, \gamma) = \text{sgn}(z)(|z| – \gamma)_+$はソフト閾値演算子であり、$(|z| – \gamma)_+ = \max(|z| – \gamma,\ 0)$を表します。分子のソフト閾値処理がL1ペナルティによる係数のゼロへの収縮を実現し、分母の$(1 + \lambda(1-\alpha))$がL2ペナルティによる比例的な収縮を加えます。
この更新式から得られる推定量をナイーブElastic Net推定量と呼びます。ナイーブ推定量ではL1とL2の二重の収縮が重複して適用されるためバイアスが過大になる傾向があります。このバイアスを補正するために、スケーリング係数$(1 + \lambda(1-\alpha))$を最終的な係数推定値に乗算した補正済みElastic Net推定量が実用上は用いられます。
計算効率の向上には、$\lambda$の値を最大値から徐々に小さくしながら解を更新するウォームスタートが有効です。隣接する$\lambda$での解を初期値に用いることで、各$\lambda$での収束に要する反復数が大幅に削減されます。ただし、Elastic Netは1次元の正則化パスを持つLassoと異なり、$\alpha \times \lambda$の2次元グリッドサーチが必要であるため、単純なLassoよりも計算コストが高くなります。
グループ効果と変数選択特性
Elastic Netの特徴的な性質はグループ効果です。これは、相関した予測変数を同時に選択または同時に除外する傾向を持つという性質です。この性質は次の定理によって形式化されます。
2つの予測変数$X_i$と$X_j$が完全に相関している($\rho_{ij} = 1$)とき、任意の$\alpha \in (0, 1]$および$\lambda > 0$のもとで、Elastic Net推定量は以下を満たします。
$$
\hat{\beta}_i = \hat{\beta}_j
$$
この等価性は完全相関の極限的な場合ですが、強い正の相関($\rho_{ij} \approx 1$)においても係数が近い値を取る傾向があります。Lasso回帰が相関変数グループからほぼ任意の1変数を選択するのとは対照的に、Elastic Netは相関した変数グループ全体を同時に選択またはゼロに収縮させます。
この性質が成立するためには、予測変数間の相関構造がグループを形成する状況が前提となります。変数間の相関が低い場合にはグループ効果は小さく、Lasso回帰との実質的な差異が生じにくくなります。
$\alpha$の値がグループ効果の強度に直接影響します。$\alpha$が小さいほどL2成分の比重が増してグループ効果が強まります。$\alpha$が1に近づくほどL1成分が支配的になり、グループ効果が弱まってLassoに近いランダム選択的な挙動に戻ります。スパース性と群効果の一貫性の間には$\alpha$を通じたトレードオフが存在します。
ハイパーパラメータの選択:αとλの最適化戦略
Elastic Netの性能は$\alpha$と$\lambda$の2つのハイパーパラメータの選択に大きく依存します。データから最適な$(\alpha, \lambda)$を選択するために、$k$分割交差検証が標準的に用いられます。最適な$(\hat{\alpha}, \hat{\lambda})$の組は次のCV(交差検証)損失を最小化する基準で選択されます。
$$
(\hat{\alpha}, \hat{\lambda}) = \arg\min_{\alpha,\,\lambda} \frac{1}{k}\sum_{l=1}^{k} \left\|y^{(l)} – X^{(l)}\hat{\beta}^{(-l)}(\alpha, \lambda)\right\|_2^2
$$
ここで$y^{(l)}$と$X^{(l)}$は$l$番目の検証折りのデータ、$\hat{\beta}^{(-l)}(\alpha, \lambda)$は$l$番目の折りを除いた訓練データで推定した係数です。このCV-MSEを$\alpha \times \lambda$グリッド全体にわたって評価し、最小値を与える組み合わせを採択します。
実践では$\alpha$について有限個の候補を設定し、各$\alpha$に対して$\lambda$の正則化パスを降順に処理します。$\lambda$のシーケンスはウォームスタートによって効率的に計算されます。モデル選択バイアスを抑制するために、外側ループでモデルの汎化性能を評価し、内側ループでハイパーパラメータを選択するネストされた交差検証が推奨されます。
グリッドの分解能を高めるほど精密な探索が可能になりますが、計算コストは$\alpha$の候補数と$\lambda$のグリッド点数の積に比例して増大します。また、サンプルサイズが小さい場合には$\alpha$の選択が不安定になり、異なるデータ分割で最適$\alpha$が大きく変動することがあります。
(Fig2. αパラメータがスパース性と予測誤差に与える影響(CV-MSEとゼロ係数数の変化))
生物統計学への応用:ゲノムデータの変数選択
Elastic Netが実用的な優位性を発揮する代表的な分野が生物統計学、特にGWAS(ゲノムワイド関連解析)です。GWASでは疾患と関連するSNP(一塩基多型)を全ゲノム規模で探索しますが、予測変数の数$p$(SNP数、数十万から数百万のオーダー)がサンプルサイズ$n$を大幅に上回る高次元設定($p \gg n$)となります。
高次元ゲノムデータでは、ゲノム上の隣接領域に存在するSNPはLD(連鎖不平衡)と呼ばれる相関構造を持ち、LDブロックと呼ばれる相関グループを形成します。LDブロック内のSNPは互いに強い相関を持つため、Lasso回帰を適用するとブロック内からほぼ任意の1つのSNPのみが選択されます。統計的に等価な情報を持つ他のSNPが除外されるため、結果の再現性が低く生物学的解釈も困難になります。
Elastic Netのグループ効果はLDブロックに対応する形でSNPグループを同時に選択します。これにより相関したSNPグループから安定した変数選択が実現され、疾患リスク予測モデルの再現性が向上します。また、L2ペナルティが$p \gg n$設定での推定不安定性を緩和します。
この応用では、ゲノムデータが高次元・疎ブロック相関構造(LDブロック)を持つという前提が必要です。統計的に抽出された変数グループが生物学的経路と一致しない場合があり、モデルの生物学的解釈には専門的な知識と独立した検証実験が必要です。さらにElastic Netは線形モデルであるため、遺伝子間の非線形相互作用を捉える能力を持ちません。これらの限界は生物学的知見への変換を慎重に行う必要があることを意味します。
OLS・Ridge・Lasso・Elastic Netの体系的比較
4つの手法は制約領域の幾何学的形状によって本質的に区別されます。最小二乗法(OLS)は制約なしの最適化であり係数の推定に一切の収縮が生じません。リッジ回帰のL2制約領域は超球面であり、OLS損失関数の楕円等高線との交点は座標軸上に生じにくいため疎な解は得られません。Lasso回帰のL1制約領域は超多面体(菱形)であり、等高線との交点が座標軸上に生じやすく疎な解をもたらします。Elastic Netの制約領域はL1とL2の凸結合であり、菱形の頂点に丸みを帯びた形状となります。この形状はLassoよりも安定した疎な解を与えながらリッジ回帰の多重共線性耐性を保持します。
バイアス・分散トレードオフの観点では、OLSはガウス・マルコフの定理により最良線形不偏推定量(BLUE)ですが、多重共線性下では分散が非常に大きくなります。正則化を加えるとバイアスが生じますが分散が低下し、全体的な平均二乗誤差が改善される場合があります。Elastic Netは$\alpha$の調整によりリッジ回帰とLassoの間のバイアス・分散バランスを連続的に制御します。
(Fig3. L2・L1・Elastic Net制約領域の幾何学的比較(2変数空間における等高線と制約領域))
各手法の特性比較は以下のとおりです。
| 手法 | ペナルティ形式 | スパース解 | 群効果 | 多重共線性耐性 | 推奨場面 |
|---|---|---|---|---|---|
| OLS | なし | なし | なし | 低い | $n \gg p$、多重共線性なし |
| リッジ回帰 | $\lambda\|\beta\|_2^2$ | なし | あり(弱) | 高い | 多重共線性あり、全変数保持が必要 |
| Lasso回帰 | $\lambda\|\beta\|_1$ | あり | なし | 中程度 | 変数選択が必要、低相関予測変数 |
| Elastic Net | $\lambda\!\left[\alpha\|\beta\|_1 + \frac{1-\alpha}{2}\|\beta\|_2^2\right]$ | あり | あり(強) | 高い | 高相関変数グループ、$p \gg n$ |
データ特性に応じた手法選択の基準として以下が挙げられます。$n/p$比が十分大きく多重共線性が低い場合はOLSが適しています。変数選択は不要で多重共線性への対処が必要な場合はリッジ回帰が有効です。変数選択が必要で予測変数間の相関が低い場合はLasso回帰が適しています。予測変数間に強い相関グループが存在するか、$p \gg n$の高次元データで変数選択と多重共線性耐性を同時に必要とする場合にElastic Netが推奨されます。

