ベイズ線形回帰の概要と動機
頻度論的回帰分析における最小二乗法では、回帰係数$\beta$は固定された未知の定数として扱われ、推定値はデータのみから計算されます。この枠組みでは、事前知識を系統的に取り込む手段がなく、推定量の不確実性は漸近理論に基づく信頼区間として表現されます。小標本では漸近近似の精度が低下し、推定が不安定になる場合があります。
ベイズ線形回帰は、パラメータ$\beta$を確率変数として扱い、観測データに基づいてその分布を更新する枠組みです。この枠組みの数理的基礎はベイズの定理であり、回帰問題への適用は次の形式で記述されます。
$$p(\beta | \mathbf{y}, \mathbf{X}) \propto p(\mathbf{y} | \mathbf{X}, \beta) \cdot p(\beta)$$
右辺の$p(\beta)$は事前分布(データ観測前の係数に対する信念)、$p(\mathbf{y}|\mathbf{X},\beta)$は尤度、左辺$p(\beta|\mathbf{y},\mathbf{X})$は事後分布です。この関係式はデータによる信念の定量的更新を表しています。
ベイズアプローチが頻度論的手法に対して提供する追加的な価値は4点あります。第1に、業界知識や過去の分析結果を事前分布として明示的に組み込めます。第2に、推定量の不確実性を完全な事後分布として定量化でき、点推定にとどまりません。第3に、小標本環境では事前分布が安定化の役割を果たし、推定精度が向上します。第4に、正則化を事前分布として統一的に定式化できるため、リッジ回帰やLasso回帰との理論的な接続が明確になります。
確率モデルの定式化:尤度と事前分布
$n$個の観測値$\mathbf{y} \in \mathbb{R}^n$と計画行列$\mathbf{X} \in \mathbb{R}^{n \times p}$からなる線形モデルを考えます。誤差の正規性および独立・均一分散性を仮定すると、ガウス尤度は行列形式で次のように表されます。
$$p(\mathbf{y} | \mathbf{X}, \beta, \sigma^2) = \mathcal{N}(\mathbf{y};\, \mathbf{X}\beta,\, \sigma^2 \mathbf{I}_n)$$
回帰係数$\beta \in \mathbb{R}^p$に対する共役事前分布として、正規事前分布を設定します。
$$p(\beta) = \mathcal{N}(\beta;\, \mu_0,\, \Sigma_0)$$
$\mu_0 \in \mathbb{R}^p$は事前分布の平均であり、係数への事前期待を表します。$\Sigma_0 \in \mathbb{R}^{p \times p}$は事前共分散行列であり、その信念の不確実性の大きさを規定します。これらのハイパーパラメータはデータ観測前の信念を定量的に符号化するものです。例えば$\Sigma_0$の対角成分が大きいほど事前信念が拡散的(無情報的)であることを意味し、小さいほど強い事前信念を表します。
共役事前分布を選択する理由は計算上の便宜にあります。ガウス尤度に対して正規事前分布を設定すると事後分布も正規分布となり、解析的な閉形式解が得られます。非共役事前を選択した場合は数値的近似(MCMC(マルコフ連鎖モンテカルロ法)等)が必要となり、計算コストが大幅に増加します。
本モデルの仮定として、誤差の正規性($\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$)、誤差項間の独立性、均一分散性、および$\sigma^2$が既知であるという単純化仮定が置かれます。$\sigma^2$既知の仮定は理論的整理を容易にしますが、実用上は$\sigma^2$も推定対象とする拡張が必要な制約です。
事後分布の導出:共役性と閉形式解
正規共役性を利用すると、事後分布は解析的に導出されます。精度行列$\Lambda = \Sigma^{-1}$を導入し、ベイズの定理に基づいて尤度と事前分布を結合すると、事後精度行列は次の形式で得られます。
$$\Lambda_n = \Lambda_0 + \sigma^{-2}\mathbf{X}^\top\mathbf{X}$$
$\Lambda_0 = \Sigma_0^{-1}$は事前精度行列、$\sigma^{-2}\mathbf{X}^\top\mathbf{X}$はデータから得られるフィッシャー情報行列です。事後平均は次の式で定まります。
$$\mu_n = \Lambda_n^{-1}(\Lambda_0\mu_0 + \sigma^{-2}\mathbf{X}^\top\mathbf{y})$$
したがって事後分布の閉形式は次の通りです。
$$p(\beta | \mathbf{y}, \mathbf{X}) = \mathcal{N}(\beta;\, \mu_n,\, \Lambda_n^{-1})$$
事後平均$\mu_n$は、事前情報由来の項$\Lambda_0\mu_0$とデータ由来の項$\sigma^{-2}\mathbf{X}^\top\mathbf{y}$を事後精度行列で重み付けした加重平均として解釈できます。$\Lambda_0$が大きいほど事前信念の影響が強くなり、$\sigma^{-2}\mathbf{X}^\top\mathbf{X}$が大きいほどデータの情報が支配的になります。標本数$n$が増加するにつれて$\sigma^{-2}\mathbf{X}^\top\mathbf{X}$の寄与が支配的となり、$\mu_n$は最小二乗推定量へと収束します。これはデータが豊富であれば事前信念の影響が漸減することを示しています。
(Fig1. 事前分布から事後分布への更新:データ観測に伴う信念の変化)
この導出結果の限界として2点を挙げます。第1に、$\sigma^2$既知の仮定は実際の分析では成立しない場合が多く、$\sigma^2$も未知の場合は逆ガンマ事前分布を用いた階層モデルまたは経験ベイズ法が必要となります。第2に、正規事前分布は非対称パラメータや有界パラメータ(例えば$[0,1]$区間に制約されるもの)には不適切であり、そのような場合は適切な分布族への変更を要します。
予測分布と不確実性の定量化
新規入力$\mathbf{x}^* \in \mathbb{R}^p$に対する周辺予測分布は、パラメータ$\beta$について周辺化することで得られます。
$$p(y^* | \mathbf{x}^*, \mathbf{X}, \mathbf{y}) = \int p(y^* | \mathbf{x}^*, \beta)\, p(\beta | \mathbf{X}, \mathbf{y})\, d\beta$$
この積分は正規分布の共役性により解析的に実行でき、予測分布の平均と分散は次のように表されます。
$$E[y^*] = {\mathbf{x}^*}^\top \mu_n$$
$$\text{Var}[y^*] = \sigma^2 + {\mathbf{x}^*}^\top \Lambda_n^{-1} \mathbf{x}^*$$
分散の加法的分解には2種類の不確実性源が現れます。第1項$\sigma^2$はアレアトリック不確実性(観測ノイズに起因し、データをいくら増やしても削減できない不確実性)を表します。第2項${\mathbf{x}^*}^\top \Lambda_n^{-1} \mathbf{x}^*$はエピステミック不確実性(パラメータ推定の不確かさに起因し、データ収集によって削減可能な不確実性)を表します。この明示的な分解は、最小二乗法の予測区間にはない特性です。
予測区間の確率的解釈として、「予測値が区間に含まれる事後確率が95%である」という意味を持ちます。これは「真のパラメータが区間に含まれる割合が95%である」という頻度論的信頼区間の解釈とは質的に異なります。データが疎な領域や外挿領域では${\mathbf{x}^*}^\top \Lambda_n^{-1} \mathbf{x}^*$が増大し、予測不確実性帯が拡大します。これにより、外挿領域での信頼度の低下が自動的に予測区間に反映されます。
(Fig2. ベイズ予測分布:回帰直線と95%予測不確実性帯)
MAP推定とリッジ回帰の等価性
MAP推定(最大事後確率推定)は、事後分布を最大化するパラメータ値として定義されます。
$$\hat{\beta}_{\text{MAP}} = \arg\max_\beta \log p(\beta | \mathbf{y}, \mathbf{X})$$
対数事後を展開すると次のようになります。
$$\log p(\beta | \mathbf{y}, \mathbf{X}) = -\frac{1}{2\sigma^2}\|\mathbf{y} – \mathbf{X}\beta\|^2 – \frac{1}{2}(\beta – \mu_0)^\top \Lambda_0 (\beta – \mu_0) + \text{const}$$
正規事前$p(\beta) = \mathcal{N}(\mathbf{0},\, \tau^2 \mathbf{I})$($\mu_0 = \mathbf{0}$, $\Sigma_0 = \tau^2 \mathbf{I}$)を仮定すると、$\Lambda_0 = \frac{1}{\tau^2}\mathbf{I}$となります。このときMAP問題は次のL2ペナルティ付き最小化と等価です。
$$\hat{\beta}_{\text{MAP}} = \arg\min_\beta \left[\|\mathbf{y} – \mathbf{X}\beta\|^2 + \frac{\sigma^2}{\tau^2}\|\beta\|^2\right]$$
これはリッジ回帰の目的関数に他ならず、正則化パラメータと事前分散の対応関係は次の通りです。
$$\lambda = \frac{\sigma^2}{\tau^2}$$
事前分散$\tau^2$が小さいほど$\lambda$は大きくなり、係数はより強く原点方向に縮小されます。この対応関係から、リッジ回帰の正則化パラメータ$\lambda$は正規事前分布の精度($1/\tau^2$)とノイズ分散$\sigma^2$の比として解釈できます。
同様に、Laplace事前分布$p(\beta) \propto \exp(-|\beta|/b)$を設定するとL1ペナルティが導かれ、Lasso回帰と等価なMAP推定が得られます。MAP推定と完全ベイズ推定の本質的な違いは、MAP推定が事後分布の最頻値のみを返し、事後分布全体の情報(不確実性の定量化)を捨てる点にあります。Laplace事前のもとでは対数事後が$\beta=0$で微分不可能となるため、解析的な閉形式解は存在せず、座標降下法などの数値最適化が必要となります。
(Fig3. MAP推定とリッジ推定量の一致:正則化パラメータ $\lambda$ と事前分散 $\tau^2$ の対応)
モデルの仮定と適用上の限界
ベイズ線形回帰が依拠する主要な仮定を整理します。第1に線形性(応答変数と説明変数の関係が$\mathbf{y} = \mathbf{X}\beta + \varepsilon$の構造で表せること)、第2にガウス誤差($\varepsilon \sim \mathcal{N}(0, \sigma^2\mathbf{I})$の成立)、第3に誤差項間の独立性、第4に$\sigma^2$の既知性または弱情報事前分布による近似です。これらの仮定のいずれかが成立しない場合、事後推定の妥当性が損なわれる可能性があります。
事前分布の感度分析は実用上重要な検討事項です。情報的事前分布では分析者の信念がパラメータ推定に影響しますが、無情報事前分布(Jeffreys事前分布など)では尤度情報が支配的となります。ハイパーパラメータの設定方法として、経験ベイズ(タイプII最尤法)ではハイパーパラメータを周辺尤度$p(\mathbf{y}|\mathbf{X})$の最大化によって推定し、主観的な事前設定への依存を軽減します。
適用上の限界は4点あります。第1に、計算コストの問題として精度行列の逆行列演算が$O(p^3)$の計算量を要するため、高次元設定(例えば$p > 10^3$程度)では計算負荷が実用上の障壁となります。第2に、事前設定の主観性が解析者依存性をもたらし、異なる事前設定が異なる推定結果を生む可能性があります。第3に、線形性仮定が成立しない場合の自然な拡張はガウス過程回帰であり、非線形入出力関係をノンパラメトリックに扱えます。第4に、時変係数や非定常過程への対応は基本モデルの範囲外であり、状態空間モデル等への拡張が必要です。
正規共役事前が不適切な場合(非対称事後、多峰性事後など)は、MCMC(マルコフ連鎖モンテカルロ法)や変分推論によって事後分布を数値的に近似する必要があります。
マーケティング分析への応用と頻度論的手法との比較
デジタル広告のマルチチャネル効果量推定は、ベイズ線形回帰の実用的な適用例です。TV・検索・SNS広告の係数推定において、各チャネルの効果量は正であるという業界知識と、チャネル間の相対的スケールに関する事前情報を正規事前分布として組み込めます。例えばTV広告の係数に$\mathcal{N}(0.5,\, 0.2^2)$の情報的事前を設定し、SNS広告の係数に$\mathcal{N}(0.3,\, 0.1^2)$を設定することで、小標本・高共線性環境での推定安定性が向上します。
マルチチャネルデータでは広告接触量の高い共線性が頻繁に生じますが、適切に設定された事前分布は最小二乗法で不安定化する推定量を安定化します。係数の事後分布全体を報告することで、点推定のみに依拠した意思決定のリスクを定量的に評価でき、マーケティング予算配分の意思決定に不確実性情報を活用できます。
この応用における限界として2点を挙げます。第1に、広告効果の時変性(シーズナリティ・飽和効果)により定常的な線形モデルでは長期予測精度が低下します。第2に、チャネル間の強い共線性が存在する場合、事前設定には専門知識が不可欠であり、不適切な事前設定は推定に系統的なバイアスをもたらします。
| 手法 | 出力形式 | 不確実性定量 | 事前知識の組み込み | 計算コスト | 正則化・過学習対策 |
|---|---|---|---|---|---|
| 最小二乗法(OLS) | 点推定 | 漸近信頼区間のみ | 不可 | $O(p^2 n + p^3)$ | なし |
| リッジ回帰 | 点推定 | 限定的(プロファイル信頼区間) | 正則化強度のみ制御可 | $O(p^2 n + p^3)$ | L2正則化による係数縮小 |
| MAP推定(正規事前) | 点推定 | なし(リッジ回帰と等価) | 事前平均・分散を指定可 | $O(p^2 n + p^3)$ | 事前分布によるL2ペナルティ |
| 完全ベイズ(正規共役) | 事後分布全体 | 完全な事後不確実性帯 | 事前平均・分散を指定可 | $O(p^3)$(精度行列の逆行列) | 事前分布による自然な正則化 |

