多重共線性とは何か
多重共線性とは、重回帰モデルの説明変数間に強い線形的な依存関係が存在する状態を指します。ある説明変数$X_j$が他の説明変数の線形結合によって近似的に表現できる状態として定義されます。
$$X_j \approx c_1 X_1 + \cdots + c_{j-1} X_{j-1} + c_{j+1} X_{j+1} + \cdots + c_p X_p$$
完全共線性では、この関係が等号で成立します。このとき、設計行列$X$に対して$X^\top X$の行列式はゼロとなります。
$$\det(X^\top X) = 0$$
$X^\top X$は特異行列となり、OLS推定量$\hat{\beta} = (X^\top X)^{-1} X^\top y$を導く逆行列が存在しないため、推定値の一意性が失われます。近似共線性では行列式は厳密にはゼロではないものの、$X^\top X$のランクが実質的に低下し、数値的不安定性が生じます。完全共線性と近似共線性の区別は実務上重要であり、前者はモデル推定自体を不可能にする一方、後者は推定量の統計的性質を劣化させます。
多重共線性が発生しやすい変数の類型として、同一指標の複数加工(売上高と売上高成長率の同時投入)、経済変数の共動(GDP成長率と設備投資の同期的変動)、完全なカテゴリダミーの全投入(ダミー変数の罠)が挙げられます。
OLS推定量への統計的影響
OLS推定量の分散共分散行列は次の式で与えられます。
$$\text{Var}(\hat{\beta}) = \sigma^2 (X^\top X)^{-1}$$
説明変数$X_j$を残余の説明変数で回帰したときの決定係数を$R_j^2$、$X_j$の全変動を$SST_j = \sum_{i=1}^n (x_{ij} – \bar{x}_j)^2$とすると、$\hat{\beta}_j$の分散は次のように表されます。
$$\text{Var}(\hat{\beta}_j) = \frac{\sigma^2}{SST_j (1 – R_j^2)}$$
$R_j^2$が1に近づくにつれ$(1 – R_j^2)$はゼロに近づき、分散は急激に膨張します。その結果、標準誤差$SE(\hat{\beta}_j)$が拡大し、t検定統計量
$$t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$$
の絶対値が縮小します。これにより個別のt検定で有意性が失われる一方、モデル全体のF検定は有意を保つという乖離が生じることがあります。また、推定値の数値的不安定性によってデータのわずかな変化で係数が大きく変動し、理論と矛盾する符号逆転が生じるリスクも高まります。
ガウス=マルコフ定理が保証する最良線形不偏推定量の性質は、設計行列のフルランク条件$\text{rank}(X) = p$を前提とします。多重共線性が顕著な状況ではこの条件が実質的に侵害されます。
多重共線性は係数の解釈を困難にするものの、予測精度を直接損なうとは限りません。外挿を行わない範囲では高い共線性下でも予測誤差が増大しない場合があるため、解釈問題と予測問題は分離して評価する必要があります。
診断指標:分散膨張係数(VIF)
分散膨張係数(VIF)は、OLS推定量の分散が変数間の直交設計に比べて何倍に膨張しているかを定量化する指標です。$X_j$を残余の説明変数で回帰したときの決定係数$R_j^2$を用いて次のように定義されます。
$$\text{VIF}_j = \frac{1}{1 – R_j^2}$$
VIFは$R_j^2 = 0$(完全独立)のとき1、$R_j^2 \to 1$(完全共線性)のとき無限大となります。VIFと標準誤差膨張率の関係は$\sqrt{\text{VIF}_j}$で与えられ、VIF = 10のとき標準誤差は直交設計の約3.16倍に拡大します。実務上の慣習的閾値として、VIF $> 5$は共線性への懸念の目安、VIF $> 10$は重大な問題の目安とされます。モデル全体の評価には、全変数のVIFの算術平均(平均VIF)を参照する方法も有用です。
VIFの閾値は統計的検定に基づくものではなく慣習的な基準であり、分析の目的や分野によって適切な水準は異なります。カテゴリ変数に対してダミー変数群全体ではなく各ダミーに個別にVIFを適用すると、誤った診断につながる場合があります。さらに、VIFは二変数間の線形関係を個別に捉えるため、複数変数による複合的な共線性を見逃す可能性があります。
(Fig1. 各説明変数のVIF値と診断閾値(5・10)との比較)
(Fig2. 説明変数間の相関係数と回帰係数標準誤差の関係:共線性が強まるにつれ標準誤差は急激に膨張する)
条件数と固有値分解による診断
$X^\top X$を固有値分解すると
$$X^\top X = V \Lambda V^\top$$
と表されます。固有値を降順に$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p$と並べたとき、条件数$\kappa$は最大固有値と最小固有値の比の平方根として定義されます。
$$\kappa = \sqrt{\frac{\lambda_{\max}}{\lambda_{\min}}}$$
全成分への拡張として、条件指数$\kappa_j$が次のように定義されます。
$$\kappa_j = \sqrt{\frac{\lambda_{\max}}{\lambda_j}}$$
条件数の解釈基準として、$\kappa < 30$は軽微、$30 \leq \kappa < 100$は中程度、$\kappa \geq 100$は重大な共線性の目安とされます。小さな固有値に対応する固有ベクトルの方向が共線性の「向き」を示します。分散分解比(VDP)は条件指数と組み合わせて用いることで、どの変数が共線性に関与しているかを特定します。条件数と固有値スペクトルはVIFでは検出できない複合的な共線性の診断に特に有効です。
条件数は説明変数のスケールに依存するため、標準化を行わない状態での計算は結果を歪めます。また、条件数はモデル全体の問題を一指標に集約するため、問題変数の特定にはVDPとの併用が必要です。
(Fig3. $X^\top X$の固有値スペクトルと条件指数:近ゼロの固有値が共線性の存在を示す)
| 指標 | 定義の概要 | 閾値の目安 | 検出できる共線性のタイプ | スケール依存性 |
|---|---|---|---|---|
| VIF | $1/(1-R_j^2)$:個別変数の分散膨張率 | >5(懸念)/ >10(重大) | 二変数間の線形依存 | あり(標準化推奨) |
| 条件数 | $\sqrt{\lambda_{\max}/\lambda_{\min}}$:設計行列全体の数値的安定性 | <30(軽微)/ 30–100(中程度)/ >100(重大) | モデル全体の複合的共線性 | あり(要標準化) |
| 条件指数 | $\sqrt{\lambda_{\max}/\lambda_j}$:各固有値成分の不安定性 | >30(問題の目安) | 特定の固有値方向の共線性 | あり(要標準化) |
| 相関行列 | 変数ペア間のピアソン相関係数 | |r| > 0.8(高相関の目安) | 二変数間のペアワイズ相関 | なし |
対処戦略の体系
多重共線性への対処法は、解釈目的と予測目的のいずれを優先するかによって最適な選択が異なります。
変数削除は共線性の原因となる変数をモデルから除去する手法です。実装が最も簡易ですが、情報損失を伴います。リッジ回帰(L2正則化)は正則化項を加えることで意図的にバイアスを導入し、推定量の分散を圧縮します。主成分回帰は説明変数を直交化された主成分に変換して回帰することで共線性を解消します。変数の中心化・スケーリングは数値的安定性を改善し、特に交互作用項や多項式項を含む場合に有効です。データ拡張によってよりバリエーションのある追加サンプルを収集することで、共線性の度合いを軽減できる場合があります。因子モデルへの置換は共線的変数を潜在因子でまとめ、解釈の枠組みを変える手法です。
解釈目的では係数の意味が重要なため、変数削除や因子モデルが選択されることが多いです。正則化は係数の解釈を変えるため、係数の統計的検定を目的とする場面では不適切な場合があります。
| 手法 | 係数の解釈可能性 | 予測精度への影響 | 実装難度 | 推奨される状況 |
|---|---|---|---|---|
| 変数削除 | 高(残存変数は解釈可能) | 情報損失による低下の可能性 | 低 | 明確な共線的変数が特定できる場合 |
| リッジ回帰 | 中(バイアスが生じる) | 分散圧縮により改善傾向 | 中 | 予測精度優先・全変数保持が必要な場合 |
| 主成分回帰 | 低(主成分は原変数の合成) | 次元削減の度合いに依存 | 中 | 高次元・複合的共線性が存在する場合 |
| 因子モデル | 中(潜在因子の解釈が必要) | 潜在構造への当てはまり次第 | 高 | 潜在因子の仮定が理論的に支持される場合 |
金融工学への応用:マクロ因子モデルでの診断と対処
マクロ経済変数を説明変数とする株式収益率の重回帰モデルでは、GDP成長率・政策金利・インフレ率・為替レートが強い共動性を示すことが多いです。これらの変数は景気循環や中央銀行の政策反応関数を通じて相互に連動するため、VIFが慣習的閾値を超える事例が頻繁に発生します。
診断の手順として、まず各説明変数のVIFを計算し、VIF $> 10$の変数を特定します。次に条件数を算出し、$\kappa \geq 30$であれば複合的共線性の存在を確認するためVDPを参照します。係数の符号が理論的な期待と逆転している場合、多重共線性による推定の歪みが疑われます。たとえば金利上昇が株式収益率を正に押し上げるという推定結果が得られた場合、共線性による「見せかけの関係」の可能性を検討する必要があります。このような係数の符号逆転は、OLS推定量の分散膨張によって引き起こされる典型的な症状です。
対処の選択基準として、係数の解釈可能性を維持する必要がある場合には変数削除または因子モデルへの置換を選択し、予測精度を優先する場合にはリッジ回帰を検討します。主成分回帰はマクロ変数の共動性が強く次元削減が有効な場合の選択肢となります。
金融時系列では変数間の相関構造が市場局面(低ボラティリティ期・危機期)によって大きく変化します。特定期間で計算したVIFや条件数は他の期間に適用できず、診断結果は期間依存の静的な参照値として扱う必要があります。
限界・注意点・よくある誤解
予測目的のモデルでは、説明変数間の共線性が強い場合でも、外挿しない範囲での予測精度は損なわれにくいことがあります。これは予測値$\hat{y} = X\hat{\beta}$が個々の係数の不安定性とは独立して安定している場合があるためです。共線性が問題となるのは主に係数の解釈場面であり、予測場面とは区別して考える必要があります。
低VIFが観測されても実質的な共線性が存在しうる場合があります。高次元設定では複数変数の複合的な線形依存関係が二変数間のVIFに現れず、条件数や固有値スペクトルで初めて検出されることがあります。
多重共線性はデータの特性であり、モデルの構造的欠陥ではありません。変数の選択方法やデータ収集の設計を改善することで軽減できますが、モデル定式化の誤りとは区別する必要があります。正則化手法はパラメータ空間に制約を課すことで多重共線性と過学習の両方を部分的に緩和しますが、係数の不偏性は失われます。
VIFおよび条件数はいずれも診断ツールであり、除去すべき変数を一意に決定するものではありません。最終的な変数選択には、統計的指標に加えて分野知識と目的関数の明確化が必要です。

