Top 5 This Week

関連記事

4. 重回帰分析:複数の説明変数を用いた予測

- 本サイト運営者のサービスの紹介 -

重回帰分析の概要と動機

単回帰分析は1つの説明変数と目的変数の線形関係を推定しますが、実際の現象では複数の要因が同時に目的変数に影響を与えるため、説明変数が1つだけでは予測精度が不十分になる場合があります。重回帰分析はこの制約を克服するために、$p$個の説明変数を同時にモデルへ組み込みます。

重回帰モデルの一般形は次のように定義されます。

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon$$

ここで$\beta_0$は切片、$\beta_j$($j = 1, \ldots, p$)は各説明変数の偏回帰係数、$\varepsilon$は誤差項を表します。

単相関は2変数間の線形関係の強さを測る指標ですが、第三の変数の影響が混入した値を示します。一方、偏相関は他の説明変数の影響を取り除いた条件付きの相関です。この差異は交絡変数の問題に直結します。交絡変数とは説明変数と目的変数の両方に影響を与える変数であり、交絡変数を制御しない場合、単回帰係数と偏回帰係数は異なる値を持ちます。重回帰分析では複数の説明変数を同時に投入することで交絡変数の影響を統計的に制御します。

比較項目 単回帰 重回帰
モデル式 $y = \beta_0 + \beta_1 x + \varepsilon$ $y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon$
説明変数の数 1個 $p$個($p \geq 2$)
行列表現 不要(スカラー式で完結) 必要($Y = X\beta + \varepsilon$)
係数の解釈 説明変数と目的変数の直接的な傾き 他変数一定のもとでの条件付き効果(偏回帰係数)
F検定の役割 単一係数の有意性検定と同値 モデル全体の有意性評価($\beta_1 = \cdots = \beta_p = 0$の検定)
典型的な適用目的 2変数の関係の記述・簡易予測 交絡変数の制御・多因子による予測

モデルの行列表現

$n$件の観測データと$p$個の説明変数が存在する場合、重回帰モデルを行列形式で記述することでコンパクトかつ一般的な定式化が可能になります。

$$Y = X\beta + \varepsilon$$

ここで$Y$は$n \times 1$の目的変数ベクトル、$X$は$n \times (p+1)$の計画行列、$\beta$は$(p+1) \times 1$の係数ベクトル、$\varepsilon$は$n \times 1$の誤差ベクトルです。各行列の展開形は次のとおりです。

$$X = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix}, \quad \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix}, \quad \varepsilon = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix}$$

計画行列(デザイン行列)の第1列がすべて1で構成されているのは、切片$\beta_0$を他の係数と統一的に推定するためです。第$i$行は$i$番目の観測点を表し、第$j+1$列($j \geq 1$)は$j$番目の説明変数の観測値に対応します。この行列表現により、係数推定や統計的推論の式を説明変数の数$p$によらず同一の行列演算として記述できます。

OLS推定量の導出と正規方程式

OLS(普通最小二乗法)では、残差二乗和を最小化する係数ベクトル$\hat{\beta}$を求めます。残差二乗和の行列形式は次のように定義されます。

$$RSS(\beta) = (Y – X\beta)'(Y – X\beta)$$

$RSS$を$\beta$について微分し、勾配をゼロとおくことで正規方程式が導かれます。

$$\frac{\partial RSS}{\partial \beta} = -2X’Y + 2X’X\beta = 0 \implies X’X\beta = X’Y$$

$X$がフルコラムランクを持つ場合、すなわち説明変数間に完全な多重共線性が存在しない場合、$X’X$は正則行列となり逆行列が存在します。OLS 閉形式解は次のとおりです。

$$\hat{\beta} = (X’X)^{-1}X’Y$$

この推定量は$Y$の線形関数であり、$\hat{\beta}$は$Y$の線形推定量です。推定量の線形性はGauss-Markov定理の適用において重要な性質となります。

仮定として$X$はフルコラムランクを保持している必要があります。$X$がフルランクでない場合(多重共線性が存在する場合)、$X’X$の行列式がゼロに近づくか厳密にゼロとなり、逆行列が存在しないか数値的に不安定になります。この状況ではOLS解が一意に定まらず、係数推定の分散が極端に大きくなります。

2つの説明変数による回帰平面と観測点の3次元散布図

(Fig1. 2つの説明変数による回帰平面と観測点の重ね合わせ)

偏回帰係数の解釈と変数追加効果

偏回帰係数$\hat{\beta}_j$は、説明変数$x_j$以外のすべての説明変数を一定に保った条件のもとで、$x_j$が1単位増加したときの$y$の期待変化量を表します。この解釈は単回帰係数とは本質的に異なります。単回帰での係数は説明変数と目的変数の単純な線形関係を反映しますが、偏回帰係数は他の説明変数の影響を統計的に制御した条件付き効果です。

偏回帰係数の幾何学的直観は偏回帰プロットで確認できます。このプロットでは、まず$y$を$x_j$以外の説明変数で単回帰した残差を縦軸に、$x_j$を残りの説明変数で単回帰した残差を横軸に配置します。この散布図上の回帰直線の傾きが$\hat{\beta}_j$に対応します。

偏回帰プロット:x2の影響を除いた後のx1の追加効果

(Fig2. 偏回帰プロット:$x_2$の影響を除いた後の$x_1$の追加効果)

説明変数を追加すると既存の係数値が変化することがあります。これは省略変数バイアスの除去によって生じます。交絡変数を省略した単回帰では、省略変数と説明変数の相関が係数に混入します。重回帰でその変数を追加すると係数が変化し、場合によっては符号が反転することがあります。この符号反転は交絡が除去された結果であり、統計的には整合的な現象です。

制限事項として、説明変数間に強い多重共線性が存在する場合、個々の偏回帰係数の推定値が不安定になり標準誤差が大きくなります。また、偏回帰係数は他変数を一定とした条件付き関連を表すにとどまり、因果関係を主張するには観察されていない交絡変数が存在しないという無交絡条件が別途必要です。予測目的と因果推論目的は明確に区別する必要があります。

統計的推論:F検定とt検定

重回帰モデルの推論はANOVA分解に基づきます。全平方和(SST)は回帰平方和(SSR)と残差平方和(SSE)に次のように分解されます。

$$SST = SSR + SSE$$

$$\sum_{i=1}^{n}(y_i – \bar{y})^2 = \sum_{i=1}^{n}(\hat{y}_i – \bar{y})^2 + \sum_{i=1}^{n}(y_i – \hat{y}_i)^2$$

F検定はモデル全体の有意性を評価します。帰無仮説「すべての偏回帰係数がゼロ」のもとでのF統計量は次のように定義されます。

$$F = \frac{SSR/p}{SSE/(n-p-1)}$$

この統計量は帰無仮説のもとで自由度$(p,\; n-p-1)$のF分布に従います。

各係数の有意性はt検定で評価します。$\hat{\beta}_j$のt統計量は次のとおりです。

$$t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$$

係数推定量の分散共分散行列は次のように表されます。

$$\text{Var}(\hat{\beta}) = \sigma^2(X’X)^{-1}$$

$\sigma^2$は誤差分散であり、実際には$\hat{\sigma}^2 = SSE/(n-p-1)$で推定されます。各$\hat{\beta}_j$の標準誤差$SE(\hat{\beta}_j)$は$\hat{\sigma}^2(X’X)^{-1}$の対角成分の平方根から得られます。$\hat{\beta}_j$の95%信頼区間は次の形で構成されます。

$$\hat{\beta}_j \pm t_{n-p-1,\,0.025} \cdot SE(\hat{\beta}_j)$$

有限サンプルでF統計量およびt統計量が上記の分布に従うためには、誤差が正規分布に従うことと等分散性が必要です。これらの仮定が成立しない場合、推論の妥当性は標本数が十分大きいときの漸近結果としてのみ保証されます。p値は「帰無仮説が真のもとで観測された統計量以上に極端な値が得られる確率」であり、変数の重要性や効果の大きさを直接示すものではありません。

偏回帰係数の推定値と95%信頼区間

(Fig3. 偏回帰係数の推定値と95%信頼区間)

Gauss-Markov定理とOLS仮定

OLS推定量がBLUE(最良線形不偏推定量)である性質はGauss-Markov定理によって保証されます。この定理は次の仮定のもとで成立します。

  • 線形性:モデルがパラメータ$\beta$に関して線形であること
  • 誤差の期待値ゼロ:$E[\varepsilon] = 0$
  • 等分散性・無相関性:$\text{Var}(\varepsilon) = \sigma^2 I$(各観測の誤差分散が等しく、誤差間に相関がないこと)
  • $X$と$\varepsilon$の独立性(または$X$が非確率変数であること)
  • $X$がフルコラムランクを持つこと

これらの仮定のもとで、OLS推定量はすべての線形不偏推定量の中で最小分散を持ちます。仮定が成立しない場合の影響を次の表に整理します。

仮定名 数学的条件 違反した場合の影響
線形性 モデルが$\beta$に関して線形 係数推定に系統的バイアスが生じ、予測が歪む
誤差の期待値ゼロ $E[\varepsilon] = 0$ 切片を含むすべての係数にバイアスが生じる
等分散性 $\text{Var}(\varepsilon_i) = \sigma^2$(全$i$で同一) OLSは不偏だが非効率。標準誤差の推定が歪み、検定が無効化される
無相関性 $\text{Cov}(\varepsilon_i, \varepsilon_j) = 0$($i \neq j$) t/F検定が無効化される。標準誤差の過小・過大推定が生じる
多重共線性なし $\text{rank}(X) = p + 1$ $(X’X)$が逆行列を持たず、解が一意に定まらない

不均一分散が存在する場合、OLS推定量は不偏性を保持しますが最良推定量ではなくなります。この状況では一般化最小二乗法が理論的に優れた選択肢となります。誤差の自己相関が存在する場合(時系列データで頻繁に生じます)、t/F統計量は帰無仮説のもとで理論分布に従わなくなります。誤差の正規性は有限サンプルでの推論において必要な条件であり、非正規な誤差のもとでは信頼区間およびp値の解釈が正確ではなくなります。ただし、標本数が十分大きければ中心極限定理により漸近的に近似が成立します。

金融工学への応用例:株式リターンのファクターモデル

重回帰分析は金融工学における株式リターンのファクターモデル構築に用いられます。株式の超過リターン$r_i – r_f$($r_f$はリスクフリーレート)を目的変数として、次の3つの説明変数を組み込んだモデルを構成します。

  • 市場リターン(ベンチマーク指数の超過リターン)
  • 金利スプレッド(長短金利差の変化率)
  • 業種インデックス変化率

各偏回帰係数は経済的な感応度を表します。市場リターンに対する係数はベータ値と呼ばれ、市場リターンが1単位変化したときの株式超過リターンの変化量(他変数一定)を示します。金利スプレッドの係数は金利感応度を、業種インデックスの係数は業種特有のリスクへの感応度を表します。モデルの診断では残差の自己相関検定、不均一分散の検定、多重共線性の診断を実施することが推奨されます。

予測目的と係数の経済的解釈目的では、変数選択および評価指標が異なります。予測目的ではAIC(赤池情報量規準)による変数選択や交差検証が有効です。解釈目的では各偏回帰係数の信頼区間の検討が優先されます。

金融時系列データには構造的に誤差の自己相関と不均一分散が生じやすく、OLSの等分散・無相関仮定が成立しない場合があります。この状況ではOLS推定量は不偏性を保持するものの、Gauss-Markov定理が保証する効率性を失い、信頼区間およびp値の信頼性が低下します。したがって時系列データへのOLS適用では残差診断を実施し、仮定違反が確認された場合には一般化最小二乗法や頑健標準誤差の使用を検討する必要があります。また、説明変数の数を増やすことで訓練データへの当てはまりは改善しますが、過学習リスクが高まります。変数選択には情報量規準や交差検証などの基準を利用することが有効です。

Popular Articles