Top 5 This Week

関連記事

22. 部分最小二乗法:潜在構造の共同推定

- 本サイト運営者のサービスの紹介 -

概要と動機:なぜPCRでは不十分なのか

多重共線性を持つ高次元データの回帰分析では、予測行列$X$の次元圧縮が不可避です。主成分回帰はX固有の分散を最大化する方向に射影しますが、この圧縮においてY(応答変数)の情報は一切使用されません。その結果、Xの変動を大きく説明する主成分がYとの関係において予測的に無意味なものとなる場合があります。

部分最小二乗法(以下PLS)はこの根本的な限界に対処するために、XとYの共分散を最大化する方向ベクトルを探索します。X空間とY空間の両方を同時に圧縮し、両者の関連性が最大となる潜在変数の軸を順次構成します。化学計量学において近赤外線スペクトルデータへの応用を通じて発展した本手法は、数百から数千の波長変数からなるX行列と少数の品質特性Yとの関係を効率的にモデル化する手段として確立されています。

主成分回帰との根本的な差異は目的関数にあります。主成分回帰がXの固有値分解を応答変数と独立に実行するのに対し、PLSは以下の共分散最大化を目的とした方向ベクトルを逐次的に推定します。

$$
\max_{w,\,c} \, \mathrm{Cov}(Xw,\,Yc) \quad \text{s.t.} \quad \|w\|=1,\;\|c\|=1
$$

この定式化により、PLSはYの変動を説明するために最も有益なXの部分空間を選択的に活用します。

PLSモデルの数理的定式化

PLSモデルは、XおよびYの外部関係式と、潜在スコア間の内部関係式から構成されます。$n \times p$の予測行列$X$と$n \times m$の応答行列$Y$に対し、$A$個の潜在成分を用いた外部関係式は次のように表されます。

$$
X = TP^\top + E
$$

$$
Y = UQ^\top + F
$$

$T$($n \times A$)はXのスコア行列、$U$($n \times A$)はYのスコア行列です。$P$($p \times A$)および$Q$($m \times A$)はそれぞれのローディング行列であり、スコアから元の変数空間への逆射影に対応する重み付け方向を表します。$E$および$F$は残差行列です。

第$a$成分のXスコアベクトル$t_a$は、重みベクトル$w_a$を用いて次のように定義されます。

$$
t_a = \frac{Xw_a}{\|Xw_a\|}
$$

この正規化によりスコアベクトルは単位長さに統一されます。各成分$a$が説明するX・Y間の共分散割合は、$w_a$および$c_a$の方向において最大化されるように決定されます。具体的には第$a$成分の共分散寄与率はXおよびYの全共分散に対する$\mathrm{Cov}(t_a,\,u_a)^2$の比として評価されます。

共分散最大化の制約付き最適化問題は次のように定式化されます。

$$
\max_{w_a,\,c_a} \, \mathrm{Cov}(Xw_a,\,Yc_a) \quad \text{s.t.} \quad \|w_a\|=1,\;\|c_a\|=1
$$

この問題の解は$X^\top Y$の特異値分解の第$a$左・右特異ベクトルに対応します。外部関係式がXおよびYの個別の分解を表す一方、内部関係式はスコア間の線形結合$u_a \approx b_a t_a$を規定し、X潜在空間とY潜在空間の対応関係を橋渡しします。

仮定として、PLSはXとY間の線形関係を前提とします。非線形な関係が支配的な場合、潜在空間での線形結合による近似は系統的誤差を生じさせます。

PLSの潜在スコア散布図(第1成分・第2成分)

(Fig1. PLSの潜在スコア散布図(第1成分・第2成分):XスコアTとYスコアUの対応関係)

NIPALSアルゴリズム:反復推定の手順

NIPALS(Nonlinear Iterative Partial Least Squares)は、PLSのパラメータを反復的に推定するアルゴリズムです。特異値分解の反復近似として理解され、完全ランク行列では同一の解に収束します。第$a$成分の推定手順は次の通りです。

まず$u_a$をYの任意の列で初期化します。続いて以下の更新を収束するまで繰り返します。

$$
w_a = \frac{X^\top u_a}{\|X^\top u_a\|}
$$

$$
t_a = \frac{Xw_a}{\|Xw_a\|}
$$

$$
c_a = \frac{Y^\top t_a}{\|Y^\top t_a\|}
$$

$$
u_a = \frac{Yc_a}{\|Yc_a\|}
$$

収束判定は前後の$u_a$の差分ノルムが閾値$\varepsilon$以下となる条件で行われます。

$$
\|u_a^{(k+1)} – u_a^{(k)}\| < \varepsilon $$

収束後、デフレーション操作によって残差行列が更新されます。

$$
X \leftarrow X – t_a p_a^\top
$$

$$
Y \leftarrow Y – t_a b_a c_a^\top
$$

ここで$b_a = t_a^\top u_a$は内部回帰係数です。このデフレーションにより、次の成分は前の成分が説明した共分散構造を除いた残差に対して推定されます。各成分の直交性はデフレーション操作によって担保されます。外れ値が存在する場合、スコアベクトルの推定において特定サンプルへの感度が高まり、推定が不安定化する場合があります。

仮定として、NIPALSの収束は行列が完全ランクであれば保証されます。ランク欠損や数値的な縮退が生じる場合、収束速度の低下や解の不安定化が発生することがあります。

限界として、NIPALSは欠損値を含むデータに対して欠損セルをスキップした更新が可能という利点がありますが、大規模データでは反復回数の増加により収束が遅くなる場合があります。この場合は$X^\top Y$の直接特異値分解による実装が計算効率の観点で優れています。

NIPALSアルゴリズムの収束曲線

(Fig2. NIPALSアルゴリズムの収束曲線:反復回数とuベクトル変化量の関係)

PLS1とPLS2:応答変数の次元による分類

PLSは応答変数Yの次元により、PLS1とPLS2に分類されます。

PLS1はYが単一の応答変数$y$($n \times 1$ベクトル)である場合に対応します。この場合、Yスコアベクトル$u_a$はスカラーに類した列ベクトルとなり、$c_a$は定数スカラーへ退化します。モデルは次の形に簡略化されます。

$$
y = Tq + f \quad (q \in \mathbb{R}^A,\; f \in \mathbb{R}^n)
$$

定式化の簡略化により計算的単純性が生まれ、単一応答の予測精度においてPLS2より良好な性能を示す場合があります。

PLS2はYが複数の応答変数からなる行列($n \times m$)である場合に対応します。

$$
Y = UQ^\top + F \quad (U \in \mathbb{R}^{n \times A},\; Q \in \mathbb{R}^{m \times A})
$$

PLS2では複数のY変数を同時にモデル化することで、Y変数間の共変動構造も潜在空間に反映されます。品質管理においてタンパク質含量・水分・硬度等の複数品質特性を同時予測する場合に応用されます。

限界として、PLS2はY変数間の共線性が高い場合に成分の解釈が困難になります。高い相関を持つY変数が同一の潜在次元に集約されるため、個別Y変数への寄与分析が不明確になる場合があります。この場合、各Y変数に対して独立にPLS1を適用するアプローチが解釈可能性の観点で有効です。

成分数の選択:PRESS統計量と交差検証

PLSの予測性能は成分数$A$に依存し、適切な$A$の決定が予測精度の確保に不可欠です。成分数が少なすぎると予測の偏りが増大し、多すぎると訓練データへの過適合が生じます。

PRESS統計量(予測残差二乗和)は交差検証に基づく予測誤差の指標です。第$i$観測値を除いてモデルを構築し、除外した観測値の予測誤差を積算することで、汎化性能を推定します。$A$成分モデルに対して次のように定義されます。

$$
\mathrm{PRESS}(A) = \sum_{i=1}^{n} \bigl(y_i – \hat{y}_{-i}(A)\bigr)^2
$$

$\hat{y}_{-i}(A)$は第$i$観測値を除いた$A$成分モデルによる予測値です。

$Q^2$統計量は$\mathrm{PRESS}(A)$を全二乗和$SS_Y$で正規化したものです。

$$
Q^2(A) = 1 – \frac{\mathrm{PRESS}(A)}{SS_Y}
$$

$Q^2$は予測$R^2$に相当し、1に近いほど交差検証予測精度が高いことを示します。成分追加の停止基準として、$Q^2$の増分が0.01を下回る場合に成分の追加を打ち切ることが一般的です。$Q^2$の累積プロットにおいてプラトーが観察される点が最適成分数の目安となります。$R^2_X$および$R^2_Y$(累積説明率)を$Q^2$と同時に評価することで、Xの説明率とYの予測力のバランスを確認することが推奨されます。

限界として、小標本ではLeave-One-Out交差検証が不安定であり、$k$-fold交差検証が推奨されます。また交差検証による成分数の選択はデータに依存し、普遍的な閾値は存在しません。異なるデータセットでは適切な成分数が大きく異なるため、ドメイン知識と組み合わせた判断が必要です。

交差検証によるPRESS統計量と成分数の関係

(Fig3. 交差検証によるPRESS統計量と成分数の関係:最適成分数の決定)

PCR・リッジ回帰との比較と品質管理への応用

PLS、主成分回帰、リッジ回帰はいずれも多重共線性に対処する回帰手法ですが、推定機構が本質的に異なります。以下の比較表に主要な特性を整理します。

手法 方向ベクトルの決定基準 Y情報の使用 スパース性 成分数/パラメータ選択 主な適用場面
PLS1 XY共分散の最大化 あり(単一Y) なし 成分数$A$(交差検証) スペクトル分析、単一応答の高次元回帰
PLS2 XY共分散の最大化 あり(複数Y同時) なし 成分数$A$(交差検証) 複数品質特性の同時予測
主成分回帰 Xの分散の最大化 なし なし 成分数$A$(交差検証) X構造の可視化を伴う次元圧縮回帰
リッジ回帰 $L_2$正則化によるOLS修正 あり(間接的) なし 正則化パラメータ$\lambda$(交差検証) $p < n$の中次元多重共線性

PLSとリッジ回帰はいずれも多重共線性に対処しますが、推定機構が異なります。リッジ回帰は係数の$L_2$ノルムにペナルティを課す連続的な収縮によってパラメータを安定化します。一方PLSは成分数$A$によって制御された離散的な次元圧縮によって多重共線性の影響を軽減します。リッジ回帰は$p < n$の状況での多重共線性対処に適しており、PLSは$p \gg n$の高次元設定での予測に特に有効です。正準相関分析との関係では、PLSが共分散の最大化を目的とするのに対し、正準相関分析は相関係数の最大化を目的とする点で異なります。

品質管理への応用として、近赤外線スペクトル分析による食品・医薬品製造工程での品質特性のリアルタイム予測があります。X行列は数百から数千の波長変数からなるスペクトル測定値、Y行列はタンパク質含量・水分・硬度等の品質測定値です。実務的な手順として、まずキャリブレーションセット・バリデーションセット・テストセットへの分割を行い、次に交差検証による最適成分数の決定を実施します。ローディングベクトルとVIP(射影における変数重要度)の分析により、予測に寄与する波長帯域の解釈が可能です。

限界として、製造ラインの温度変動や機器の経年劣化によりスペクトル特性が変化し、キャリブレーションモデルの定期的な更新が必要です。また訓練データの組成範囲を超えた新製品や新条件への外挿では予測精度が著しく低下します。外挿領域でのサンプルに対しては、ホテリングの$T^2$統計量やQ残差統計量による適用範囲の確認が推奨されます。

Popular Articles