不均一分散とOLSの限界
OLS(通常最小二乗法)は、残差二乗和
$$\sum_{i=1}^{n}(y_i – \mathbf{x}_i’\boldsymbol{\beta})^2$$
を最小化することでパラメータ $\boldsymbol{\beta}$ を推定します。ガウス=マルコフ定理は、誤差が均一分散条件
$$\text{Var}(\varepsilon_i) = \sigma^2 \quad (i = 1, \ldots, n)$$
を含む標準的な仮定のもとで、OLS推定量が BLUE(最小分散線形不偏推定量)であることを保証します。均一分散は全観測が同等の精度で得られていることを意味します。
しかし実際のデータでは、観測ごとに誤差の分散が異なる不均一分散 $\text{Var}(\varepsilon_i) = \sigma_i^2$ が生じることがあります。製造データでは高温環境での測定が低温時より変動しやすく、集計データでは大規模グループの平均値がより安定しているといった状況がその例です。不均一分散のもとでOLS推定量は不偏性を維持しますが、各観測の精度差が無視されるため最小分散性を失いBLUEではなくなります。分散の小さな観測が持つ豊富な情報が、分散の大きな観測と同一の重みで処理されることで推定の非効率が生じます。
WLS(加重最小二乗法)は、各観測の精度に応じた重みを推定に組み込むことで、不均一分散下での推定効率の回復を図ります。ただし、WLSの適用には不均一分散の形式——分散関数 $\sigma_i^2 = f(\mathbf{x}_i)$ の具体的な関数形——を事前に特定する必要があります。
(Fig1. OLSとWLSの回帰直線比較:不均一分散シミュレーションデータ)
WLSの数理的定式化
WLSは各観測 $i$ に正の重み $w_i > 0$ を付与し、重み付き残差二乗和
$$\sum_{i=1}^{n} w_i (y_i – \mathbf{x}_i’\boldsymbol{\beta})^2$$
を最小化します。重みの大きな観測が目的関数への寄与を増すことで、精度の高い観測を推定に強く反映させます。$n \times n$ 対角重み行列
$$W = \text{diag}(w_1, w_2, \ldots, w_n)$$
を定義すると、目的関数は行列形式 $(\mathbf{y} – \mathbf{X}\boldsymbol{\beta})’W(\mathbf{y} – \mathbf{X}\boldsymbol{\beta})$ と表せます。この式を $\boldsymbol{\beta}$ で微分してゼロとおくとWLS正規方程式
$$\mathbf{X}’W\mathbf{X}\boldsymbol{\beta} = \mathbf{X}’W\mathbf{y}$$
が得られます。$\mathbf{X}’W\mathbf{X}$ が正則(フルランク)である場合、WLSの閉形式解
$$\hat{\boldsymbol{\beta}}_{\text{WLS}} = (\mathbf{X}’W\mathbf{X})^{-1}\mathbf{X}’W\mathbf{y}$$
が一意に定まります。OLSの閉形式解 $\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}’\mathbf{X})^{-1}\mathbf{X}’\mathbf{y}$ と比較すると、WLSは単位行列 $I$ を重み行列 $W$ で置き換えた構造を持ちます。$W = I$ とおけばWLSはOLSに帰着するため、OLSはWLSの特殊ケースです。
閉形式解の存在条件は、全重みが正($w_i > 0$)であること、$\mathbf{X}$ がフルランクで $\mathbf{X}’W\mathbf{X}$ が正則であること、および誤差間が独立であることです。ゼロ以下の重みは目的関数の意味ある最小化を妨げるため、設計上排除されます。
WLS推定量の統計的性質
WLS推定量の不偏性は、$E[\varepsilon|\mathbf{X}] = \mathbf{0}$ を前提に $E[\mathbf{y}] = \mathbf{X}\boldsymbol{\beta}$ を代入することで示されます。
$$E[\hat{\boldsymbol{\beta}}_{\text{WLS}}] = (\mathbf{X}’W\mathbf{X})^{-1}\mathbf{X}’W E[\mathbf{y}] = (\mathbf{X}’W\mathbf{X})^{-1}\mathbf{X}’W\mathbf{X}\boldsymbol{\beta} = \boldsymbol{\beta}$$
この結果は任意の正の重みのもとで成立します。すなわちWLS推定量の不偏性は重みの選択に依存しません。
分散共分散行列の導出では、誤差の真の構造が $\text{Var}(\varepsilon_i) = \sigma^2/w_i$($\sigma^2$ は共通スケール)であると仮定します。このとき $\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 W^{-1}$ であり、
$$\text{Var}(\hat{\boldsymbol{\beta}}_{\text{WLS}}) = (\mathbf{X}’W\mathbf{X})^{-1}\mathbf{X}’W \cdot \sigma^2 W^{-1} \cdot W\mathbf{X}(\mathbf{X}’W\mathbf{X})^{-1} = \sigma^2(\mathbf{X}’W\mathbf{X})^{-1}$$
が得られます。重みが真の逆分散 $w_i = 1/\sigma_i^2$ に設定されているとき、ガウス=マルコフ定理のWLS版として、この推定量は線形不偏推定量の中で最小分散を達成しBLUEとなります。
OLSとの分散比較では、不均一分散下でのOLSの分散はサンドイッチ形式 $(\mathbf{X}’\mathbf{X})^{-1}\mathbf{X}’\Sigma\mathbf{X}(\mathbf{X}’\mathbf{X})^{-1}$($\Sigma = \text{diag}(\sigma_1^2, \ldots, \sigma_n^2)$)で与えられます。真の重みを用いたWLSの分散 $\sigma^2(\mathbf{X}’W\mathbf{X})^{-1}$ はこれを下回り、不均一分散下での推定効率の優位性を示します。ただしこの優位性は真の重みが既知の場合に限定されます。
BLUEの成立には、真の重み $w_i = 1/\sigma_i^2$ が既知であること、$E[\varepsilon|\mathbf{X}] = \mathbf{0}$ が維持されること、誤差間が独立であることが前提です。真の重みが未知で推定重みを用いる場合、BLUEの性質は厳密には保証されません。
GLSの特殊ケースとしてのWLS
GLS(一般化最小二乗法)は、誤差の共分散行列が $\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2\Omega$ で表される一般的な枠組みです。$\Omega$ は任意の正定値対称行列であり、分散不均一性と誤差間の相関を統一的に扱います。
WLSはこの枠組みにおいて $\Omega = W^{-1} = \text{diag}(1/w_1, \ldots, 1/w_n)$ の対角行列となる特殊ケースとして位置づけられます。対角行列はすべての非対角成分がゼロ、すなわち誤差間の相関がゼロであることを表します。
データ変換によるOLSへの帰着を示します。$\mathbf{y}^* = W^{1/2}\mathbf{y}$、$\mathbf{X}^* = W^{1/2}\mathbf{X}$ と変換すると、変換後のモデルの誤差は均一分散 $\text{Var}(\boldsymbol{\varepsilon}^*) = \sigma^2 I$ を持ちます。この変換後モデルへのOLS適用がWLSと等価であることは、
$$\hat{\boldsymbol{\beta}} = (\mathbf{X}^{*’}\mathbf{X}^*)^{-1}\mathbf{X}^{*’}\mathbf{y}^* = (\mathbf{X}’W\mathbf{X})^{-1}\mathbf{X}’W\mathbf{y} = \hat{\boldsymbol{\beta}}_{\text{WLS}}$$
から確認できます。この等価性はWLSをデータ変換によってOLSに帰着させる操作として解釈する根拠を与えます。
WLSの適用範囲は、誤差間の相関がゼロ($\Omega$ が対角行列)である場合に限られます。時系列データや空間的に近接した観測のように誤差間に相関が存在する場合は $\Omega$ が非対角行列となり、WLSでは対応不可能です。この場合は非対角の $\Omega$ を扱うGLSへの移行が必要です。
重みの設定方法と実行可能WLS
WLSにおける理論的に最適な重みは真の逆分散重み
$$w_i = \frac{1}{\sigma_i^2}$$
ですが、実際には $\sigma_i^2$ は観測されないため、データに基づく推定が必要です。
真の重みが未知の場合に推定重みを使用するWLSを、実行可能WLSと呼びます。英語ではFeasible WLSと表記されます。この手法は2段階手順で実行されます。第1段階ではOLSを適用して残差 $\hat{\varepsilon}_i$ を取得し、残差または説明変数を用いて各観測の分散 $\hat{\sigma}_i^2$ を推定します。推定重み $\hat{w}_i = 1/\hat{\sigma}_i^2$ を構築した後、第2段階でこの推定重みによるWLSを再推定します。
Feasible WLSでは、第1段階のOLS残差によって推定された重みを第2段階の推定に組み込む構造から、有限標本バイアスが生じます。これは推定誤差の単純な伝播ではなく、推定手順の段階的構造に起因する固有の統計的現象です。推定重み $\hat{w}_i = 1/\hat{\sigma}_i^2$ は第1段階の残差 $\hat{\varepsilon}_i$ の関数であり、$\hat{\varepsilon}_i$ 自体が応答変数 $\mathbf{y}$ の線形関数です。したがって有限標本内で $\hat{w}_i$ と第2段階の推定誤差の間に相関が生じ、この相関が $E[\hat{\boldsymbol{\beta}}_{\text{FWLS}}] \neq \boldsymbol{\beta}$ という有限標本バイアスとして顕在化します。このバイアスは標本サイズ $n \to \infty$ の極限で消滅し、Feasible WLS推定量は一致性を持ちます。しかし小標本ではこの段階的バイアスが無視できない大きさを持ち、点推定と標準誤差の信頼性を損ないます。
グループ別分散推定では、観測をグループ $g$ に分類し、各グループ内の残差から
$$\hat{\sigma}_g^2 = \frac{1}{n_g – 1}\sum_{i \in g}(\hat{\varepsilon}_i – \bar{\hat{\varepsilon}}_g)^2$$
を推定します。グループ $g$ に属する全観測に $w_i = 1/\hat{\sigma}_g^2$ が付与されます。集計データへの応用では、各集計値がサンプルサイズ $n_i$ 個体の平均として得られる場合に
$$w_i = n_i$$
を用います。この設定はサンプルサイズが増えるほど集計値の推定精度が向上することを反映します。集計データと個票データでは重みの統計的意味が根本的に異なるため、適用文脈に応じた解釈が必要です。
逆分散重みの解釈は、精度の高い観測($\sigma_i^2$ が小さい)に大きな重みを付与して推定への寄与を高めるという情報論的合理性に基づきます。重み推定に誤差が生じると小標本特性に影響し、分散関数の関数形仮定が恣意的に設定された場合は推定量の効率性が損なわれます。
(Fig3. 重み設定スキームが回帰係数推定に与える影響:逆分散・サンプルサイズ比例・等重み)
品質管理への応用:測定精度が異なるデータへの対応
製造工程では、温度・圧力などの操作条件 $x_i$ の変化に伴い測定誤差の分散が変化することがあります。測定誤差分散が操作条件に比例する仮定 $\sigma_i^2 \propto x_i$ が成立するとき、適切な重みは
$$w_i \propto \frac{1}{x_i}$$
と設定されます。操作条件が低い状態では測定が安定するため大きな重みが付与され、工程パラメータの影響をより精度よく推定できます。この仮定が成立する前提は、測定誤差分散が観測可能な説明変数(ここでは操作条件)の関数として特定可能であることです。
WLSの妥当性を診断するため、加重残差
$$\hat{\varepsilon}_i^* = \sqrt{w_i} \cdot \hat{\varepsilon}_i$$
が用いられます。OLS残差 $\hat{\varepsilon}_i$ は不均一分散下でフィット値に対して系統的な分散拡大パターンを示します。適切な重み設定のもとでは、加重残差 $\hat{\varepsilon}_i^*$ がフィット値に対して均一な散布を示すことが期待されます。加重残差プロットによってこの均一性が確認されることが、WLS適用の妥当性検証の基準となります。
WLS適用前後を比較すると、係数推定値と標準誤差が変化します。OLSでは分散の大きな観測が推定に不釣り合いな影響を及ぼすのに対し、WLSは精度の高い観測を中心とした推定を実現し、係数の標準誤差が縮小する傾向があります。
分散構造の誤指定は推定量の効率性を損ない、標準誤差を歪めます。工程条件と測定分散の関係が非線形または複合的な場合、逆分散重みの線形比例仮定が成立せずWLSの効率優位が失われます。また少サンプルでの残差ベース重み推定は不安定であり、推定の信頼性が低下します。
(Fig2. WLS適用前後の残差プロット:OLS残差の不均一性と加重残差の均一化)
OLS・WLS・GLSの比較と適用指針
OLS・WLS・GLS(一般化最小二乗法)の三手法は、誤差構造の仮定・最適性条件・適用場面において異なる特性を持ちます。以下の表に主要な比較軸を整理します。
| 手法 | 誤差の仮定 | 重み/共分散構造 | BLUEの成立条件 | 典型的適用場面 |
|---|---|---|---|---|
| OLS | 均一分散、誤差間独立 | 重みなし($W = I$) | 均一分散条件が成立する場合 | 誤差の均一性が確認されたデータ |
| WLS | 不均一分散、誤差間独立 | 対角重み行列 $W$ | 真の逆分散重みが既知の場合 | 分散構造が特定できる不均一分散データ、集計データ |
| GLS | 一般の共分散構造(相関含む) | 一般共分散行列 $\Omega$ | 真の $\Omega$ が既知の場合 | 時系列・空間データ、誤差間に相関が存在する場合 |
適用前提の観点では、均一分散が成立する場合はOLSが適切です。誤差が独立であるが観測ごとに分散が異なる場合にWLSが有効であり、誤差間に相関が存在する場合はGLSへの移行が必要です。推定効率の序列については、真の重みが既知であれば不均一分散下でWLSはOLSを上回ります。真の $\Omega$ が既知のGLSはより一般的な誤差構造に対応し、最高の効率を達成します。
モデル誤指定リスクの観点では、OLSは不均一分散のもとで標準誤差が歪み推定量が非効率になりますが不偏性は保たれます。WLSは重み構造の仮定が誤っている場合にOLSより効率が低下する可能性があります。Feasible GLSは $\Omega$ の推定誤差が推定量の有限標本特性に影響します。WLSおよびFeasible GLSにおける重み推定に伴う不確実性は実践上の主要制約であり、重み構造の仮定を診断・検証する手順が不可欠です。

