Top 5 This Week

関連記事

3. 最小二乗法:推定の仕組みと数理

- 本サイト運営者のサービスの紹介 -

OLSとは何か:残差最小化の直感

最小二乗法は英語で Ordinary Least Squares といい、OLS と略されます。OLS は、観測データに線形モデルを当てはめる際に用いられる代表的な推定手法です。推定されたモデルから得られる当てはめ値と実際の観測値との差を定量化し、その差の二乗和が最小となるようにパラメータを決定します。OLS は単回帰から重回帰まで同一の最適化原理に基づいており、統計学・計量経済学・工学など幅広い分野で基礎的な推定手法として位置づけられています。前提となる単回帰の枠組みについては別記事を参照してください。

観測値 $y_i$ に対し、推定された回帰モデルが与える値 $\hat{y}_i$ を当てはめ値と呼びます。当てはめ値と観測値の差を残差といい、次のように定義されます。

$$
e_i = y_i – \hat{y}_i
$$

残差はパラメータ推定後に計算できる量です。これに対して誤差 $\varepsilon_i$ は、真のモデルパラメータに基づく概念量であり、データから直接観測することはできません。残差は誤差の推定量に相当しますが、両者は区別される必要があります。

OLS が最小化する対象は残差二乗和(RSS)です。

$$
RSS = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n}(y_i – \hat{y}_i)^2
$$

残差に対して二乗を取る理由は二点あります。第一に、二乗によって正と負の残差が相殺されず、全観測点のずれが積算されます。第二に、二乗は大きな残差に対して不均衡に大きな重みを与えるため、大きく外れた観測点がパラメータ推定に強く影響します。残差の絶対値和を最小化する手法(最小絶対値法)や他の損失関数を用いる手法と比較すると、OLS は微分可能であることから解析的な閉形式解が導出できるという数学的な利点を持ちます。

散布図と回帰直線および各データ点の残差(垂直線)

(Fig1. 散布図・回帰直線と各データ点の残差(垂直線))

偏微分による最適化:傾きと切片の導出

単回帰モデル $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$ において、OLS 解は RSS を切片 $\beta_0$ および傾き $\beta_1$ に関してそれぞれ偏微分し、ゼロと置くことで求められます。

$\beta_0$ に関する偏微分の一階条件は次のとおりです。

$$
\frac{\partial RSS}{\partial \beta_0} = -2\sum_{i=1}^{n}(y_i – \beta_0 – \beta_1 x_i) = 0
$$

$\beta_1$ に関する偏微分の一階条件は次のとおりです。

$$
\frac{\partial RSS}{\partial \beta_1} = -2\sum_{i=1}^{n} x_i(y_i – \beta_0 – \beta_1 x_i) = 0
$$

この二式は正規方程式の単回帰版に相当します。これら二式を連立して解くと、傾きの閉形式解が得られます。

$$
\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})}{\sum_{i=1}^{n}(x_i – \bar{x})^2}
$$

この式の分子は $x$ と $y$ の標本共分散($n-1$ 倍)に、分母は $x$ の標本分散($n-1$ 倍)に対応します。すなわち $\hat{\beta}_1$ は、$x$ と $y$ の共変動の大きさを $x$ 自身の変動で正規化した量として解釈できます。

切片の閉形式解は次のとおりです。

$$
\hat{\beta}_0 = \bar{y} – \hat{\beta}_1 \bar{x}
$$

この式は、推定された回帰直線が必ず標本平均点 $(\bar{x},\,\bar{y})$ を通過することを意味します。RSS は $\beta_0$ と $\beta_1$ の二次関数であり、二次係数が正であるため下に凸な曲面を形成します。この性質により、一階条件から得られる解は大域的な最小点として一意に定まります。RSS 曲面の等高線プロットでは、楕円状の等高線が OLS 解を囲む構造が確認できます(Fig2 参照)。等高線が密な方向に対応する軸は、その方向へのパラメータ変化に対して RSS が敏感であることを示します。

パラメータ空間における RSS 等高線と最小点

(Fig2. パラメータ空間における RSS 等高線(最小点が OLS 解))

正規方程式と行列形式の閉形式解

多変数への一般化には行列表現が有効です。$n$ 件の観測値と $p$ 個のパラメータを持つモデルを定式化します。設計行列 $X$ は $n \times p$ 行列であり、通常は第一列が切片項(すべて 1)、残りの列が各説明変数の観測値で構成されます。目的変数を $\mathbf{y} \in \mathbb{R}^n$、パラメータベクトルを $\boldsymbol{\beta} \in \mathbb{R}^p$ とすると、RSS は次の行列形式で表されます。

$$
RSS = (\mathbf{y} – X\boldsymbol{\beta})^\top (\mathbf{y} – X\boldsymbol{\beta})
$$

$\boldsymbol{\beta}$ に関して微分しゼロと置くと、正規方程式が導かれます。

$$
X^\top X\,\boldsymbol{\beta} = X^\top \mathbf{y}
$$

$X$ がフルコラムランクであるとき $X^\top X$ は正則行列となり、一意の閉形式解が存在します。この条件を「$X$ がフルランクである」といいます。フルランク仮定は、各説明変数が他の説明変数の線形結合で表されないことを要求しており、モデルの識別可能性の根拠となります。

$$
\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y}
$$

正規方程式の幾何学的解釈として、OLS 解は残差ベクトル $\mathbf{e} = \mathbf{y} – X\hat{\boldsymbol{\beta}}$ が $X$ の列空間に直交するという条件、すなわち $X^\top \mathbf{e} = \mathbf{0}$ と等価です。

射影行列(ハット行列) $H$ は次のように定義されます。

$$
H = X(X^\top X)^{-1}X^\top
$$

$H$ を用いると当てはめ値は $\hat{\mathbf{y}} = H\mathbf{y}$ と表され、$H$ は $\mathbf{y}$ を $X$ の列空間への正射影として機能します。ハット行列は冪等($H^2 = H$)かつ対称($H^\top = H$)であり、残差ベクトルは $\mathbf{e} = (I – H)\mathbf{y}$ と表されます。$H$ の対角成分 $h_{ii}$ はレバレッジと呼ばれ、$i$ 番目の観測値が当てはめ値に与える影響力の大きさを表します。レバレッジが高い観測点は、説明変数空間での位置がほかの観測点から離れており、回帰直線を自身の方向に引き寄せる効果を持ちます。レバレッジと残差を組み合わせた指標としてクックの距離が知られており、影響力の大きい観測点の診断に用いられます。

フルランク仮定として、$X$ がフルコラムランク($\text{rank}(X) = p$)であることが必要です。多重共線性が存在し説明変数列間に線形従属関係がある場合、$X^\top X$ は特異行列となり逆行列が存在しません。このとき OLS 解は一意に定まらず、推定された係数は数値的に不安定になります。

OLS推定量の統計的性質

OLS 推定量の統計的性質を明らかにするため、以下の仮定を設けます。線形性(真のモデルが $\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}$ で表される)、外生性($E[\boldsymbol{\varepsilon}|X] = \mathbf{0}$)、均一分散($\text{Var}(\boldsymbol{\varepsilon}|X) = \sigma^2 I$)、無相関誤差(誤差の分散共分散行列の非対角成分がゼロ)の4条件です。

これらの仮定のもとで、OLS 推定量の不偏性は次のように示されます。

$$
E[\hat{\boldsymbol{\beta}}] = (X^\top X)^{-1}X^\top E[\mathbf{y}] = (X^\top X)^{-1}X^\top X\boldsymbol{\beta} = \boldsymbol{\beta}
$$

したがって $E[\hat{\boldsymbol{\beta}}] = \boldsymbol{\beta}$ が成り立ち、OLS 推定量は不偏推定量です。不偏推定量とは、繰り返し標本抽出を行った場合に推定量の期待値が真のパラメータに一致する推定量を指します。

OLS 推定量の分散共分散行列は次のように表されます。

$$
\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (X^\top X)^{-1}
$$

ガウス=マルコフ定理によれば、上記の4仮定のもとで OLS 推定量は BLUE(最良線形不偏推定量)です。BLUE とは、線形不偏推定量のクラスの中で各パラメータの推定分散が最小であることを意味します。この定理の意義は、誤差の正規性を仮定しなくても BLUE の保証が成立する点にあります。最尤推定量など他の推定原理は正規性を必要とする場面が多いのに対し、ガウス=マルコフ定理は正規性なしに OLS の効率性を保証します。

サンプルサイズが増加するにつれ、外生性と通常の正則条件のもとで OLS 推定量は真のパラメータ $\boldsymbol{\beta}$ に確率収束するという一致性も保証されます。ただし、一致性は不偏性より弱い条件であり、有限標本では系統的なバイアスが存在しうる点に留意が必要です。

上記の仮定が成立しない場合には BLUE の保証が失われます。異分散や系列相関が存在する場合、OLS 推定量は不偏性を保つものの効率的ではなくなり、加重最小二乗法や一般化最小二乗法といった別の推定量がより小さな分散を達成します。

OLSが成り立つための仮定

ガウス=マルコフの5仮定を体系的に整理し、各仮定が違反された場合の推定量への影響と対処手法を以下に示します。実際のデータ分析では、これらの仮定をすべて同時に満たすことは稀であり、残差プロットや統計的検定を用いた仮定診断が推論の信頼性を担保する上で不可欠です。

仮定名 数式表現(概要) 違反時の影響 対処手法
線形性 $\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}$ モデルの誤定式化によりバイアスが生じる 変数変換・非線形モデルの導入
外生性 $E[\boldsymbol{\varepsilon}|X] = \mathbf{0}$ OLS 推定量が偏りを持つ(不偏性の喪失) 操作変数法・操作変数推定
均一分散 $\text{Var}(\boldsymbol{\varepsilon}|X) = \sigma^2 I$ 推定量は不偏だが非効率。標準誤差の推定が歪む 加重最小二乗法・ロバスト標準誤差
無相関誤差 $\text{Cov}(\varepsilon_i,\,\varepsilon_j) = 0\;(i \neq j)$ 標準誤差が過小推定され、検定の信頼性が低下する 一般化最小二乗法・HAC 標準誤差
フルランク $\text{rank}(X) = p$ $(X^\top X)$ が特異となり OLS 解が定まらない 変数の削除・リッジ回帰・主成分回帰

外れ値は残差二乗和を通じて OLS 解に大きな影響を与えます。残差の大きい観測点は二乗によって増幅されるため、少数の外れ値が推定された回帰係数を大きく歪める場合があります。

異分散(誤差の分散が観測値によって異なる状況)が存在する場合、OLS 推定量は不偏性を保ちますが BLUE ではなくなります。標準誤差の推定が歪み、仮説検定や信頼区間の解釈に誤りが生じる可能性があります。

系列相関(連続する誤差間に相関がある状況)が存在する場合、OLS は標準誤差を過小に推定する傾向があります。このとき t 検定や F 検定が実際よりも有意な結果を示しやすくなり、推論の信頼性が損なわれます。系列相関の有無はダービン・ワトソン検定などによって診断できます。

なお、ガウス=マルコフの仮定には誤差の正規性は含まれません。正規性は BLUE の保証には不要ですが、係数の有意性検定(t 検定・F 検定)や信頼区間の構成において有限標本での厳密な分布論の根拠となります。大標本では中心極限定理によって正規性の仮定を緩和できますが、小標本では正規性の確認が推論の精度に影響します。

品質管理への応用

OLS は製造業の品質管理において、工程パラメータと品質特性の関係を定量化する手段として活用されます。金属加工工程を例に取ると、加工温度(説明変数 $x$、単位:℃)と製品の引張強度(目的変数 $y$、単位:MPa)の線形関係を OLS で推定することで、目標強度を達成するための最適加工温度を特定し、工程管理基準を設定できます。具体的には、引張強度の規格下限値を満たす加工温度の範囲を回帰直線から逆算する形で運用されます。

OLS によって推定された回帰係数 $\hat{\beta}_1$ は、加工温度が 1 ℃ 上昇したときの引張強度の変化量(MPa)を表します。この値が正であれば高温ほど強度が増す関係、負であれば逆の関係があることを示します。ただし、この係数が表すのは加工温度と引張強度の関連性であり、因果関係を直接示すものではありません。因果関係の確立には、工程への意図的な操作を伴う実験計画法の適用が必要です。観測研究から得られた回帰係数の解釈は相関に留めることが統計的に適切です。

予測値の不確実性には二種類あります。信頼区間は回帰直線自体の位置の不確実性(母回帰直線の推定誤差)を表し、予測区間は個々の新たな観測値がとりうる範囲を表します。予測区間は個別観測値の変動も含むため、信頼区間より常に広くなります。工程管理の現場では、個々の製品が規格を満たすかどうかを評価する場合には予測区間を参照し、工程の平均的な挙動を把握する場合には信頼区間を参照するという使い分けが適切です。

観測されたデータの範囲外へモデルを適用する外挿は、予測精度の大幅な劣化を招くリスクがあります。回帰モデルは観測範囲内での関係を記述するものであり、その範囲外での線形性は保証されません。

製造工程データには時系列的な構造を持つ場合が多く、連続する測定値に系列相関が生じやすい点は OLS の無相関誤差仮定と乖離する実務上の制約です。この状況では標準誤差の過小推定が生じる可能性があり、一般化最小二乗法や時系列モデルの適用が検討されます。

当てはめ値対残差プロット

(Fig3. 当てはめ値対残差プロット(均一分散性の視覚的確認))

OLSの限界と発展手法

OLS が二乗損失を最小化する設計上、残差の大きな観測点に対して不均衡な重みが与えられます。外れ値が存在するデータでは、少数の観測点がパラメータ推定を大きく左右するため、推定結果の頑健性が損なわれます。ロバスト回帰は二乗損失の代わりに Huber 損失などの外れ値の影響を抑制する損失関数を用いることで、この問題に対処します。

多重共線性(説明変数間に強い線形関係が存在する状況)では、$X^\top X$ の行列が数値的に不安定となり、分散共分散行列 $\sigma^2 (X^\top X)^{-1}$ の対角成分が膨張します。これは、データの微小な変化が回帰係数の推定値に大きな変動をもたらすという推定の不安定性として現れます。多重共線性の程度は分散拡大係数によって定量化できます。リッジ回帰は $(X^\top X)^{-1}$ の代わりに $(X^\top X + \lambda I)^{-1}$ を用いることで行列を安定化します。ただし正規化パラメータ $\lambda > 0$ の導入によりバイアスが生じる点に注意が必要です。

不均一分散(誤差分散が観測値によって異なる状況)の下では、OLS は不偏性を保ちますが効率的ではなくなります。加重最小二乗法は各観測値に対して誤差分散の逆数を重みとして与えることで、均一分散仮定が成立しない環境でも BLUE を与えます。

OLS が閉形式解 $\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y}$ を直接計算するのに対し、勾配降下法はパラメータを反復更新することで RSS の最小点に近づく数値最適化手法です。勾配降下法の更新則は $\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} – \eta \nabla_{\boldsymbol{\beta}} RSS$ と表されます($\eta$ は学習率)。説明変数の数 $p$ が非常に多く $(X^\top X)^{-1}$ の計算コストが問題となる大規模設定では、勾配降下法が実用的な代替手段となります。ただし勾配降下法は収束保証のためにステップサイズ(学習率)の調整が必要であり、閉形式解が存在する通常規模の問題では OLS の直接計算が数値的に安定しています。

OLS が最適でない主な状況を整理すると、外れ値が多いデータ、説明変数間に強い多重共線性があるデータ、誤差分散が不均一なデータ、そして誤差に時系列的な相関があるデータの4類型に分類されます。各状況に応じた拡張手法として、ロバスト回帰、リッジ回帰、加重最小二乗法、一般化最小二乗法が位置づけられます。これらの手法はいずれも OLS の理論的枠組みを基盤として発展したものであり、OLS の限界を理解することが適切な手法選択の出発点となります。モデルの選択にあたっては、データの生成過程に関する事前知識と残差診断の結果を組み合わせることが、推定精度と推論の信頼性を確保する上で重要です。

Popular Articles