Top 5 This Week

関連記事

24. GLMから機械学習へ:確率的勾配降下と深層学習との接点

- 本サイト運営者のサービスの紹介 -

なぜGLMと機械学習を繋ぐのか

一般化線形モデルは、確率分布・線形予測子・リンク関数という三要素によって構成されます。応答変数が従う分布族を指数型分布族から選択し、共変量の線形結合である線形予測子 $\eta = \mathbf{x}^\top \boldsymbol{\beta}$ を、リンク関数 $g$ を介して期待値 $\mu = g^{-1}(\eta)$ と結びつける枠組みです。この三要素の組み合わせにより、正規線形回帰・ロジスティック回帰・ポアソン回帰が統一的な数理構造のもとで記述されます。

機械学習の中心的な操作は損失関数 $\mathcal{L}(\boldsymbol{\theta})$ の最小化です。GLMの文脈では、対数尤度 $\ell(\boldsymbol{\beta})$ の最大化と損失最小化は符号を反転させるだけの双対関係にあります。すなわち、負の対数尤度 $-\ell(\boldsymbol{\beta})$ を損失関数として採用した場合、GLMのパラメータ推定と機械学習の経験損失最小化は数学的に同一の操作となります。この双対性こそが、GLMを機械学習の数理的出発点と位置づける根拠です。

統計モデルと機械学習モデルの設計思想には明確な違いがあります。統計モデルは確率的生成過程を明示的に仮定し、推定量の不確実性定量化・仮説検定・信頼区間の構成を主目的とします。機械学習モデルは予測精度の最大化を主目的とし、モデルの確率的解釈は必ずしも要求されません。この二つの思想がどのように接続されるかを、SGDによる大規模推定・損失関数の対応・ニューラルネットワークとの構造的同値性・解釈性と精度のトレードオフという四つの視点から順に論じます。

確率的勾配降下法(SGD)によるGLMの大規模推定

GLMの標準的な推定アルゴリズムであるIRLS(反復重み付き最小二乗法)は、各反復において重み行列 $\mathbf{W} = \mathrm{diag}(w_1,\ldots,w_n)$ とフィッシャー情報行列 $\mathbf{X}^\top \mathbf{W} \mathbf{X}$ の逆行列を計算します。この逆行列の計算量は $O(p^3)$ であり、さらに全観測を用いた行列積の構築に $O(np^2)$ を要します。観測数 $n$ が数百万・次元数 $p$ が数万を超える大規模データでは、この計算は現実的でなくなります。Newton-Raphson法も同様に、ヘッセ行列の構築と逆行列計算を毎反復要求します。

勾配降下法はこの問題を回避します。パラメータ更新則は次式で与えられます。

$$
\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} – \alpha_t \nabla_{\boldsymbol{\beta}} \mathcal{L}(\boldsymbol{\beta}^{(t)})
$$

ここで $\alpha_t > 0$ は学習率です。全データを用いるバッチ勾配降下では1反復の計算量が $O(np)$ となりますが、ミニバッチサイズ $B$ のミニバッチ確率的勾配降下では各反復が $O(Bp)$ に削減されます。確率的勾配降下では、各反復で無作為に選択した1サンプル $(y_i, \mathbf{x}_i)$ の勾配でパラメータを更新します。

GLMのスコア方程式は $\nabla_{\boldsymbol{\beta}} \ell(\boldsymbol{\beta}) = \mathbf{X}^\top (\mathbf{y} – \boldsymbol{\mu})$ と書けます。ミニバッチ $\mathcal{B} \subset \{1,\ldots,n\}$ を用いた部分スコアは次式となります。

$$
\widehat{\nabla}_{\mathcal{B}} \ell(\boldsymbol{\beta}) = \frac{n}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} (y_i – \mu_i)\, \mathbf{x}_i
$$

データがi.i.d.であるという前提のもとで、この部分スコアは全データスコアの不偏推定量となります。すなわち $\mathbb{E}_{\mathcal{B}}[\widehat{\nabla}_{\mathcal{B}} \ell(\boldsymbol{\beta})] = \nabla_{\boldsymbol{\beta}} \ell(\boldsymbol{\beta})$ が成立します。この不偏性こそが確率的勾配降下法をGLM推定に適用できる統計的根拠です。収束を保証するための条件として、Robbins-Monro条件 $\sum_{t=1}^\infty \alpha_t = \infty$ かつ $\sum_{t=1}^\infty \alpha_t^2 < \infty$ があります。直感的には「学習率は十分にゆっくり減衰しなければならないが、有限時間で止まってはならない」ことを意味します。実務的には定率・多項式減衰・Adagrad・Adamなどの適応的学習率スケジュールが用いられます。オンライン学習(逐次1件更新)はデータストリームへの適用に向き、ミニバッチ学習は並列計算の恩恵を受けやすいという使い分けがあります。

バッチ勾配降下・ミニバッチSGD・確率的SGDの損失収束曲線の比較

(Fig1. バッチ勾配降下・ミニバッチSGD・確率的SGDの損失収束曲線の比較(二項ロジスティック回帰、合成データ))

仮定:データがi.i.d.であることがSGDの勾配推定の不偏性の根拠となります。この仮定が崩れる時系列データやクラスター構造を持つデータでは、部分スコアにバイアスが生じます。限界:GLMの損失関数は凸であるため大域最適解への収束が保証されますが、非凸損失関数ではSGDが局所最適解またはサドル点近傍に停留するリスクがあります。また学習率の設定に対する感度が高く、不適切な設定では発散または極めて遅い収束を招きます。

GLMの損失関数と深層学習の損失関数の対応

GLMの推定において最小化される負の対数尤度 $-\ell(\boldsymbol{\beta})$ は、深層学習で標準的に用いられる損失関数と形式的に一致します。この対応関係は、深層学習の損失関数設計がGLMの統計的枠組みを継承していることを示しています。

二項GLMであるロジスティック回帰の負の対数尤度は、バイナリ交差エントロピー損失と完全に一致します。

$$
-\ell(\boldsymbol{\beta}) = -\sum_{i=1}^n \left[ y_i \log \hat{p}_i + (1-y_i)\log(1-\hat{p}_i) \right]
$$

ここで $\hat{p}_i = \sigma(\mathbf{x}_i^\top \boldsymbol{\beta})$、$\sigma$ はシグモイド関数です。正規線形モデルの負の対数尤度は、分散 $\sigma^2$ を定数とみなすと平均二乗誤差に比例します。ポアソン回帰の負の対数尤度はポアソン損失 $\sum_i (\hat{\mu}_i – y_i \log \hat{\mu}_i)$ となり、カウント予測タスクで活用されます。多項GLMの負の対数尤度はカテゴリカル交差エントロピー損失と一致し、$K$ クラス分類の標準的な損失となります。

指数型分布族の自然パラメータ $\theta$ と平均パラメータ $\mu$ を結ぶ正準リンク関数 $g(\mu) = \theta$ は、ニューラルネットワークの出力層活性化関数の逆関数に対応します。sigmoid関数はlogitリンクの逆関数であり、softmax関数は多項logitリンクの逆関数です。この対応により、出力層の活性化関数の選択は、暗黙的に応答変数の分布族を仮定することと等価です。

表1. GLM損失関数と深層学習損失関数の対応表
分布族 正準リンク関数 GLM損失関数(−log L) 深層学習損失名 出力層活性化関数
正規 恒等リンク 平均二乗誤差 MSE Loss なし(線形)
二項 logit バイナリ交差エントロピー Binary Cross-Entropy sigmoid
多項 多項logit カテゴリカル交差エントロピー Categorical Cross-Entropy softmax
ポアソン log ポアソン損失 Poisson Loss softplus / exp
ガンマ 逆数リンク ガンマ逸脱度 Gamma Loss softplus

仮定:この対応は出力層の活性化関数が対応する分布族の逆リンク関数と一致することを前提とします。出力層にsigmoidを用いる場合、モデルは暗黙的に二項分布を仮定しています。限界:深層学習では中間層に非線形変換が加わるため、損失関数の形式が同一であっても応答変数の厳密な分布仮定はGLMほど強く課されていません。クラス不均衡が存在する場合には交差エントロピー損失の素朴な適用は性能を損なう場合があります。

ロジスティック回帰と単層・多層ニューラルネットワーク

ロジスティック回帰は、入力 $\mathbf{x} \in \mathbb{R}^p$ を受け取り、シグモイド関数を介して二値確率を出力します。出力ユニットがシグモイド活性化関数を持つ単層パーセプトロンは、その計算グラフがロジスティック回帰と形式的に同値です。入力重み $\mathbf{w}$ はロジスティック回帰の係数 $\boldsymbol{\beta}$ に、バイアス項は切片に対応します。この同値性は、ロジスティック回帰が最も単純なニューラルネットワークの一形態であることを示しています。

多層パーセプトロンはこの構造に隠れ層を追加します。第 $l$ 層の出力は次式で計算されます。

$$
\mathbf{h}^{(l)} = f\!\left(\mathbf{W}^{(l)} \mathbf{h}^{(l-1)} + \mathbf{b}^{(l)}\right)
$$

ここで $f$ は活性化関数(ReLU・tanh・sigmoid等)、$\mathbf{W}^{(l)}$ は第 $l$ 層の重み行列、$\mathbf{b}^{(l)}$ はバイアスベクトルです。GLMでは線形予測子 $\eta = \mathbf{x}^\top \boldsymbol{\beta}$ が一層の線形変換のみに相当しますが、MLPでは複数の非線形変換層を通じて任意の特徴変換が施されます。バックプロパゲーションによるパラメータ更新は、連鎖律を再帰的に適用することで損失関数の各層パラメータへの勾配を計算します。出力層における損失の勾配はGLMのスコア方程式 $\partial \ell / \partial \boldsymbol{\beta} = \mathbf{X}^\top(\mathbf{y} – \boldsymbol{\mu})$ に対応し、これが連鎖律を通じて各中間層へと逆伝播されます。ソフトマックス回帰と多項ロジスティック回帰は同一の計算構造を持ちます。クラス $k$ への所属確率 $\hat{p}_k = \exp(\mathbf{w}_k^\top \mathbf{x}) / \sum_{j} \exp(\mathbf{w}_j^\top \mathbf{x})$ は多項ロジットモデルの正準形そのものです。

万能近似定理は、十分な幅を持つ一層の隠れ層を有するネットワークが、任意のコンパクト集合上で任意の連続関数を任意精度で近似できることを保証します。この定理はGLMの線形制約を理論的に超える表現力の存在を示していますが、どのようなアーキテクチャ・学習手順でその近似が達成されるかは別問題です。

ロジスティック回帰とMLPの決定境界の比較

(Fig2. ロジスティック回帰(線形決定境界)とMLP(非線形決定境界)の比較:マーケティングの2クラス合成データ上)

GLMとニューラルネットワークのアーキテクチャ模式図

(Fig3. ロジスティック回帰(単層)・MLP(2層)・深層ネットワーク(多層)のアーキテクチャ模式図と各層の数理的対応)

仮定:GLMでは特徴量が線形予測子に線形に結合されるという仮定が置かれています。真の関係が非線形である場合、GLMは系統的なバイアスを持ちます。MLPはこの仮定を緩和しますが、代わりに最適なアーキテクチャを事前に知ることができないという設計上の不確実性を抱えます。限界:MLPはGLMに比べてパラメータ数が層数と幅に対して急速に増加するため、小標本下での過適合リスクが増大します。正則化(L2ペナルティ・Dropout・EarlyStopping等)なしでの適用は推奨されません。

マーケティング分析への応用:顧客転換率予測を例に

デジタルマーケティングにおける顧客コンバージョン予測は、GLMと機械学習の使い分けが実務的に問われる典型的な場面です。広告接触回数・サイト滞在時間・過去購買履歴等の共変量を用いて、ユーザーが購買に至る確率を推定します。

ロジスティック回帰は係数の解釈可能性に優れています。推定された係数 $\hat{\beta}_j$ は、他の変数を固定した下での共変量 $x_j$ の1単位増加に伴うログオッズの変化量を表します。例えば広告接触回数が1回増えるとコンバージョンのオッズが $\exp(\hat{\beta}_j)$ 倍になるという解釈は、施策の費用対効果評価に直結します。ユーザー数が数千万規模のオンライン広告プラットフォームでは、バッチIRLSの逆行列計算が現実的でないため、SGDベースのロジスティック回帰が標準的に採用されています。ミニバッチ確率的勾配降下はデータを逐次処理できるため、リアルタイムの入札最適化システムへの組み込みにも適しています。

同一タスクでMLPを適用すると、交互作用項や非線形特徴量を自動的に学習するため、AUCの観点では一般にロジスティック回帰を上回る予測精度が得られます。ただし、MLPの係数はロジスティック回帰のように直接解釈できません。この場合、SHAP値を用いて各特徴量の貢献度を近似的に評価することが、ブラックボックスモデルへの解釈性付与の手段として活用されています。SHAP値はゲーム理論のシャープレイ値に基づく特徴量帰属法であり、特定のモデルに依存しません。実務的な判断基準として、施策の効果を説明する必要がある場面や規制対応が求められる場面ではGLMの係数解釈が有用です。金融・医療等の規制産業では、モデルの判断根拠を監督当局に説明する義務が生じる場面があり、その場合はGLMが説明責任の要求に応えやすいモデルとなります。

仮定:ロジスティック回帰による係数解釈は、各共変量の効果が加法的かつログオッズに対して線形であることを前提とします。交互作用や非線形効果が存在する場合、この仮定は成立せず係数の解釈は誤導的になります。限界:SHAP値はモデル非依存の解釈手法ですが、厳密な計算量は特徴量数に対して指数的に増加するため、大規模高次元データへの適用には近似アルゴリズムが必要です。また、SHAP値は相関を持つ特徴量間での解釈に注意が必要であり、因果的な寄与量と同一視することはできません。

解釈可能性と予測精度のトレードオフ:GLMの位置づけ

モデルの複雑度は帰無モデル(切片のみ)から飽和モデル(各観測に独立パラメータを持つ)への連続的なスペクトラムとして理解できます。GLMはこのスペクトラムの低複雑度側に位置し、正則化GLM・MLP・DNNはより高複雑度側に位置します。このスペクトラム上でのモデルの位置づけは、バイアス-バリアンストレードオフと直結しています。期待汎化誤差はバイアス・バリアンス・既約誤差の三成分に分解されます。

$$
\mathbb{E}\left[(y – \hat{f}(\mathbf{x}))^2\right] = \left(\mathrm{Bias}[\hat{f}(\mathbf{x})]\right)^2 + \mathrm{Var}[\hat{f}(\mathbf{x})] + \sigma^2
$$

モデルの複雑度が低いほど推定量のバイアスが大きく分散が小さく、複雑度が高いほどバイアスが小さく分散が大きくなります。GLMは強い構造的仮定(線形性・指数族分布)を置くことでバイアスと引き換えに分散を抑制します。Lasso GLMはL1ペナルティにより係数を0に縮小して疎な解を生成します。Ridge GLMはL2ペナルティにより係数の絶対値を縮小しますが、厳密な0は生成しません。これらの正則化GLMは解釈性と予測精度の両立を狙った中間的な位置づけです。

モデル選択基準においても統計的アプローチと機械学習的アプローチは哲学的に異なります。AICは対数尤度とパラメータ数のペナルティから構成され漸近的な予測誤差を近似します。BICはAICよりも強いペナルティを課し、真のモデルの一致選択性を持ちます。交差検証は有限標本での汎化誤差を実測するという実験的な立場をとります。解釈可能性には係数の直接解釈性とpost-hoc解釈の二種類があります。係数の直接解釈性とは、推定係数 $\hat{\beta}_j$ を応答変数への効果量として直接読み取れる性質であり、GLMが備えます。post-hoc解釈とは、MLPやDNNに対してSHAP値・LIMEなどの事後的な解釈ツールを適用することで近似的に解釈を付与する手法です。深層学習の正則化手法であるDropoutはランダムにユニットを無効化してアンサンブル効果を生み出し、GLMのRidge正則化と概念的に対応関係があります。

解釈可能性と予測精度のトレードオフ曲線

(Fig4. モデル複雑度に対する解釈可能性スコアと予測精度(AUC)のトレードオフ曲線(顧客転換率データ))

表2. GLM vs 正則化GLM vs MLP の比較
モデル 解釈性 予測精度(典型的) 計算コスト 主な適用場面
GLM 高(係数直接解釈) 低〜中(IRLSまたはSGD) 仮説検定・説明責任・小標本
Lasso GLM 高(変数選択付き) 中〜高 低〜中(座標降下法) 高次元・変数選択が必要な場面
Ridge GLM 中(全係数残存) 中〜高 低〜中 多重共線性あり・安定推定
MLP 低(post-hoc解釈要) 中〜高(SGD・バックプロパゲーション) 非線形関係・大規模データ
DNN 低(post-hoc解釈要) 非常に高 高(GPU要) 画像・テキスト・超大規模データ

GLMが依然として有力なモデルとなる場面は、サンプルサイズが小さく推定の安定性が重要な場合・共変量の数が少なくモデルの過剰パラメータ化が不要な場合・説明責任の要求から係数の直接解釈が求められる場合の三点に集約されます。XGBoostや深層ネットワークが高い予測精度を示す場面でも、変数の係数解釈が主目的であればGLMが適切な選択となります。

仮定:バイアス-バリアンス分解はモデルが同一の生成分布から繰り返しサンプリングした場合の期待値として定義されており、単一の訓練標本に対する解釈には注意が必要です。AIC・BICによるモデル選択は漸近的な性質に基づいており、小標本では近似精度が低下します。限界:本記事はGLMと単層・二層程度のニューラルネットワークとの数理的接点に焦点を当てています。畳み込みニューラルネットワーク・Transformer等の深層アーキテクチャの詳細および勾配ブースティングの理論的解析は本記事の対象外です。モデルの解釈可能性の定量化は分野によって定義が異なり、図4の解釈可能性スコアは概念的な例示であって普遍的な尺度ではありません。

Popular Articles