Top 5 This Week

関連記事

18. 分位点回帰:条件付き分布の推定

- 本サイト運営者のサービスの紹介 -

分位点回帰の動機と位置づけ

通常の最小二乗法は条件付き期待値 $E[Y|X]$ を推定しますが、これは応答変数の条件付き分布の位置のみを要約します。応答変数の分散が説明変数に依存する不均一分散データや、裾の重い分布に従うデータでは、条件付き平均だけでは分布形状の全貌が把握できません。分位点回帰はこの制約を克服し、条件付き分位点関数 $Q_\tau(Y|X)$ を直接推定する枠組みを提供します。

τ 分位点は確率的に次のように定義されます。

$$
P(Y \leq Q_\tau(Y|X)) = \tau, \quad \tau \in (0,1)
$$

τ = 0.5 は条件付き中央値、τ = 0.1 は条件付き第10百分位点に対応します。$\tau$ の値を変化させることで条件付き分位点関数の族 $\{Q_\tau(Y|X)\,:\,\tau \in (0,1)\}$ が得られ、これは条件付き分布全体を近似します。

条件付き平均 $E[Y|X]$ と条件付き分位点 $Q_\tau(Y|X)$ の対比は実用上重要です。OLS が単一の回帰直線を与えるのに対し、分位点回帰は τ ごとに異なる回帰直線を推定します。不均一分散データでは複数の分位点回帰線がデータの広がりを扇状に捉え、OLS には捉えられない条件付き分布の構造が明らかになります。複数の τ を同時に推定することで条件付き分布全体を近似でき、リスク管理・政策評価・医療分野での基準値設定など多様な場面に応用できます。

分位点損失関数:チェック関数の数理

τ 分位点を推定するための目的関数は、チェック関数(ピンボール損失)と呼ばれる非対称損失関数です。チェック関数 $\rho_\tau$ は残差 $u = y – \hat{y}$ に対して次のように定義されます。

$$
\rho_\tau(u) = u(\tau – \mathbf{1}_{u < 0}) $$

ここで $\mathbf{1}_{u < 0}$ は $u < 0$ のとき 1、そうでないとき 0 をとる指示関数です。$u > 0$(過小予測)のとき $\rho_\tau(u) = \tau u$、$u < 0$(過大予測)のとき $\rho_\tau(u) = -(1-\tau)u$ となり、ペナルティの比率は $\tau : (1-\tau)$ に設定されます。τ が小さいほど過小予測へのペナルティが軽くなり、τ が大きいほど過大予測へのペナルティが軽くなります。

τ = 0.5 のとき、チェック関数は絶対値損失の定数倍に整理されます。

$$
\rho_{0.5}(u) = u(0.5 – \mathbf{1}_{u < 0}) = \frac{|u|}{2} $$

したがって中央値回帰(τ = 0.5)は平均絶対誤差の最小化問題と等価です。τ 分位点パラメータの推定問題は、チェック関数の経験的リスク最小化として定式化されます。

$$
\hat{\beta}_\tau = \arg\min_{\beta \in \mathbb{R}^p} \sum_{i=1}^{n} \rho_\tau(y_i – x_i’\beta)
$$

チェック関数はV字型の折れ曲がった形状を持ち、折れ曲がり角度が τ によって決まります。チェック関数は原点 $u = 0$ で微分不可能であるため、通常の勾配降下法を直接適用することができません。この制約から、次節で述べる線形計画法による解法が標準的なアプローチとなります。

τ=0.1, 0.5, 0.9のチェック関数の形状比較

(Fig1. チェック関数(ピンボール損失)のτ別形状。τ=0.5は対称なV字型、τ≠0.5は非対称になり過小予測・過大予測への感度が異なる)

推定アルゴリズム:線形計画法による解法

チェック関数の最小化問題は線形計画問題へ等価変換できます。各残差 $e_i = y_i – x_i’\beta$ を非負の補助変数 $u_i^+ = \max(e_i,\,0)$ と $u_i^- = \max(-e_i,\,0)$ に分解すると、$e_i = u_i^+ – u_i^-$、$|e_i| = u_i^+ + u_i^-$ が成立します。これを用いると最小化問題は次の線形計画問題に変換されます。

$$
\min_{\beta,\,u^+,\,u^-}\;\tau\sum_{i=1}^n u_i^+ + (1-\tau)\sum_{i=1}^n u_i^-
\quad\text{s.t.}\quad x_i’\beta + u_i^+ – u_i^- = y_i,\; u_i^+,\,u_i^- \geq 0
$$

この双対問題は次の形式をとります。

$$
\max_{a \in \mathbb{R}^n}\;\sum_{i=1}^n y_i a_i \quad\text{s.t.}\quad X’a = 0,\quad 0 \leq a_i \leq 1
$$

最適双対変数 $a_i$ は観測の残差符号に関する情報を持ち、境界条件 $0 \leq a_i \leq 1$ は観測が結合残差かどうかを反映します。LP の最適解は必ず頂点解(基底可能解)に存在し、最大 $p$ 個の観測でゼロ残差をとります。$n$ 観測・$p$ 変数の問題では単体法の場合に $O(n^2 p)$ 程度の計算量となりますが、内点法はより良い多項式時間複雑度を保証します。大規模問題では単体法より内点法が実用的に有利です。

解の一意性は誤差が連続分布に従い説明変数行列 $X$ が一般位置(任意の $p$ 列が線形独立)にある場合に確率 1 で保証されます。仮定として、説明変数行列 $X$ はフルランクである必要があり、また誤差が連続分布に従うことが解の一意性に必要です。大規模データ(観測数が数万件を超える場合)では LP ソルバーの計算コストが実用上の制約になります。そのような場合には ADMM(交互方向乗数法)などの並列化に適した近似アルゴリズムが有効な代替手段となります。

推論:標準誤差と信頼区間の構築

分位点回帰推定量 $\hat{\beta}_\tau$ は漸近正規性を持ちます。適切な正則条件のもとで次の漸近分布が成立します。

$$
\sqrt{n}\bigl(\hat{\beta}_\tau – \beta_\tau\bigr) \xrightarrow{d} N\!\left(0,\;\tau(1-\tau)\cdot D^{-1}AD^{-1}\right)
$$

ここで $D = \lim_{n\to\infty} n^{-1}\sum_i f_{e|x}(0|x_i)x_ix_i’$ は条件付き誤差密度を含む行列、$A = \lim_{n\to\infty} n^{-1}\sum_i x_ix_i’$ は説明変数の2次モーメント行列です。$D^{-1}AD^{-1}$ はサンドイッチ分散の構造を持ちます。

分散の構成要素の核心にあるのがスパーシティ関数です。

$$
s(\tau) = \frac{1}{f_{e|X}(F_{e|X}^{-1}(\tau))}
$$

スパーシティ関数は条件付き誤差密度の τ 分位点近傍での逆数であり、分布の「疎さ」を定量化します。裾の重い分布ではスパーシティが大きくなり推定量の分散も増大します。スパーシティを標本から直接推定する際は帯域幅の選択に結果が敏感に依存するため、小サンプルでは推定が不安定になりやすいという限界があります。OLS の標準誤差推定に比べ計算コストと不確実性が高くなります。

漸近分布の成立には条件付き誤差密度が τ 分位点近傍で有界かつ連続であること(スパーシティ条件)が必要です。信頼区間の構築方法として、スパーシティに基づく直接分散推定、Koenker-Bassett 逆テストを用いたランクベース信頼区間、ペアブートストラップ、残差ブートストラップの4通りが利用されます。ランクベース信頼区間はスパーシティの直接推定を回避できる点で小サンプルに優れます。ペアブートストラップは誤差の分布仮定を最小化できますが計算コストが増大します。残差ブートストラップは誤差の独立同一分布仮定のもとで適用されます。

仮定・頑健性・限界

分位点回帰が必要とする仮定は OLS と比較して最小限です。線形モデルとして条件付き分位点関数の $X$ に対する線形性を仮定します。

$$
Q_\tau(Y|X) = X’\beta_\tau
$$

これは OLS が仮定する $E[Y|X] = X’\beta$ と構造的に対比されますが、重要な違いがあります。分位点回帰では各 τ に対して異なるパラメータベクトル $\beta_\tau$ が推定され、誤差の有限分散も正規性も必要とされません。観測値の独立同一分布、または適切な依存構造の仮定のもとで理論的性質が保証されます。

分位点回帰の重要な特性として外れ値耐性があります。チェック関数は線形ペナルティを用いるため外れ値が推定に与える影響が限定されます。高いブレークダウンポイントを持ち、応答変数の外れ値に対してロバストです。τ ごとに異なる $\beta_\tau$ を推定することで、処置効果が応答変数の分位点ごとに異なる異質的処置効果の検出が可能であり、政策評価・医療研究での活用が広がっています。

本質的な限界として分位点交差問題があります。異なる τ を独立に推定する際、推定線が交差することで分位点関数の単調性 $Q_{\tau_1}(Y|X) \leq Q_{\tau_2}(Y|X)$($\tau_1 < \tau_2$)が破れる場合があります。条件付き分位点関数の線形性仮定が実データで成立しない場合には非線形モデルへの拡張が必要です。高次元設定では推定効率が低下し、ペナルティ付き分位点回帰による正則化が必要になります。

不均一分散データに対する複数分位点回帰直線とOLS直線の比較

(Fig2. 不均一分散データに対する複数分位点回帰直線とOLS直線の比較。τ=0.1, 0.25, 0.5, 0.75, 0.9の5本の分位点回帰線がデータの広がりを捉えている)

金融工学への応用:条件付きVaRとリスク管理

分位点回帰の実務応用として、金融リターンの条件付き VaR(バリュー・アット・リスク)推定が体系化されています。ポートフォリオや個別銘柄のリターン $R_t$ に対し、市場変数 $X_t$(市場リターン、ボラティリティ指数等)を条件とした下側分位点がリスク測度となります。

条件付きVaRは分位点回帰により次のように定式化されます。

$$
\text{VaR}_\tau(R_t|X_t) = X_t’\beta_\tau
$$

τ = 0.05 は 95% VaR(5% の確率で超過する損失水準)に対応します。時点 $t$ の市場条件 $X_t$ を用いることで、静的な VaR と異なり動的な時変推定が可能となり、リスク感応度の高いポートフォリオ管理と規制資本計算に活用されます。複数の τ を同時に推定することで条件付き損失分布の下側全体を近似でき、ストレスシナリオ分析において多様なリスク指標を一貫した枠組みで提供できます。

株式リターンの非対称性・裾の重さへの対応も利点です。t分布や歪み分布に従う誤差にも分布仮定なしに対応できます。この枠組みの拡張として、過去の条件付きVaRを自己回帰的に取り込む CAViaR(条件付き自己回帰分位点)モデルが時系列データへの応用を提供します。

実務上の限界として、極端な分位点(τ < 0.01)では観測データが希薄になり推定誤差が増大します。ブートストラップ信頼区間による不確実性の定量化と、必要に応じた極値理論との組み合わせが実務的なリスク計算に不可欠です。分位点交差を回避するための単調性制約が実務上必要になる場合があります。

市場リターンを条件付けた個別株リターンの条件付きVaR推定

(Fig3. 市場リターンを条件付けた個別株リターンの条件付きVaR推定(τ=0.05, 0.10)。分位点回帰線と95%ブートストラップ信頼区間を表示)

OLS・ロバスト回帰との比較と使い分け

OLS・M推定(ロバスト回帰)・分位点回帰の3手法は、推定対象と損失関数の観点で体系的に区別されます。OLS は条件付き平均を二乗損失で推定し、正規誤差仮定のもとで Gauss-Markov 定理による BLUE(最良線形不偏推定量)性を持ちます。M推定はHuber損失を用いて外れ値耐性を持つ条件付き平均の近似を推定します。分位点回帰はピンボール損失を用いて条件付き分位点 $Q_\tau(Y|X)$ を推定し、τ の値によって条件付き中央値から任意の分位点まで推定対象を変化させます。

推定対象の違いは実務上の選択に直結します。条件付き平均が関心の中心でデータが正規誤差に近い場合は OLS が効率的な選択です。外れ値の影響を抑えつつ中心傾向を推定する場合は M推定が有効です。分布の裾の振る舞い・分散の不均一性・条件付き分布全体の形状が問題となる場合は分位点回帰が適切です。

損失関数の比較においても3手法の特性が明確です。二乗損失は大きな残差を強く罰するため外れ値に敏感です。Huber損失は小さな残差に二乗損失、大きな残差に絶対値損失を適用することで両者の中間的な挙動をとります。ピンボール損失は非対称絶対値損失であり、τ の値によって過小・過大予測へのペナルティ比率を調整します。

半パラメトリック効率性の観点では、分位点回帰は誤差分布を特定しない半パラメトリックモデルクラス内においてクラメール・ラオ下界を達成する半パラメトリック効率的推定量です。これは誤差分布が未知の状況での理論的最適性を保証するものであり、誤差が厚い裾を持つ場合や分布の形状が未知の場合に OLS より漸近的に効率的になりえることの理論的根拠となります。一方、OLS の BLUE 性は線形推定量クラスに限定されており、正規誤差の仮定が成立する特殊な場合に最適です。

複数の τ を同時に推定して条件付き分布の全貌を把握する分析視点は、単一の平均推定や頑健な中心傾向推定には存在しない優位性です。τ ごとの係数変化(処置効果の異質性)を定量化できる点で、経済学・金融・医療研究における応用が広がっています。

手法 推定対象 損失関数 外れ値耐性 必要な仮定 主な応用場面
OLS 条件付き平均 $E[Y|X]$ 二乗損失 $(y-\hat{y})^2$ 低(外れ値に敏感) 有限分散・線形性(BLUE性には正規誤差) 正規誤差下の回帰・予測
ロバスト回帰(M推定) 条件付き平均の近似 Huber損失(二乗と絶対値の混合) 中(Huber関数で外れ値を制限) 対称誤差分布・有限分散 外れ値を含む回帰・頑健な中心推定
分位点回帰 条件付き分位点 $Q_\tau(Y|X)$ ピンボール損失(非対称絶対値) 高(裾分位点でも頑健) 分位点関数の線形性(分散・正規性は不要) リスク管理・分布形状推定・異質的効果の検出

Popular Articles