2.12 距離相関

統計学において最も普及しているピアソンの積率相関係数は、2つの変数間の「線形な関係」を測定する指標です。しかし、現実世界のデータには、U字型の関係や円形、あるいは複雑な周期性を持つ非線形な依存関係が数多く存在します。このような場合、ピアソンの相関係数は0に近い値となり、変数間に重要な関連性があるにもかかわらず「無相関」と誤認されるリスクがあります。この限界を克服し、非線形な依存関係を含めた統計的な独立性を判定するために開発された指標が「距離相関（Distance Correlation）」です。

距離相関の最大の特徴は、2つの確率変数が独立である場合に限り値が0になり、何らかの依存関係（線形・非線形を問わない）があれば正の値をとる点にあります。本記事では、距離相関の数理的な定義、距離共分散の概念、および実務における活用事例について解説します。

距離相関の数理的基盤

距離相関 $dCor(X, Y)$ は、2つの変数 $X$ と $Y$ の間の依存性を、それぞれのデータのペア間の距離情報に基づいて定義します。この手法は、特性関数の差の $L_2$ ノルムとして理論的に導出されますが、実務的な計算においては、観測データから構築される距離行列の操作によって定義されます。

距離共分散（Distance Covariance）の定義

サンプルサイズ $n$ のデータ $(x_1, y_1), \dots, (x_n, y_n)$ において、まずすべてのデータ点間のユークリッド距離を計算し、$n \times n$ の距離行列 $a$ および $b$ を作成します。

$$ a_{jk} = |x_j – x_k|, \quad b_{jk} = |y_j – y_k| $$

次に、これらの行列に対して「ダブルセンタリング（二重中心化）」という操作を行います。これは、各要素から行平均と列平均を引き、全体の平均を足すことで、距離空間における偏差を算出する工程です。修正後の行列の要素を $A_{jk}, B_{jk}$ とすると、以下のようになります。

$$ A_{jk} = a_{jk} – \bar{a}_{j \cdot} – \bar{a}_{\cdot k} + \bar{a}_{\cdot \cdot} $$
$$ B_{jk} = b_{jk} – \bar{b}_{j \cdot} – \bar{b}_{\cdot k} + \bar{b}_{\cdot \cdot} $$

ここで、$\bar{a}_{j \cdot}$ は第 $j$ 行の平均、$\bar{a}_{\cdot k}$ は第 $k$ 列の平均、$\bar{a}_{\cdot \cdot}$ は全要素の平均です。この修正済み行列を用いて、標本距離共分散 $dCov_n^2(X, Y)$ は以下の平均値として定義されます。

$$ dCov_n^2(X, Y) = \frac{1}{n^2} \sum_{j=1}^n \sum_{k=1}^n A_{jk} B_{jk} $$

距離相関の算出

距離相関 $dCor(X, Y)$ は、距離共分散をそれぞれの距離分散 $dVar(X) = \sqrt{dCov^2(X, X)}$ で規格化することで得られます。

$$ dCor(X, Y) = \frac{dCov(X, Y)}{\sqrt{dVar(X) dVar(Y)}} $$

この値は常に $0 \leq dCor(X, Y) \leq 1$ の範囲に収まります。負の値をとることはなく、値が1に近いほど強い依存関係があることを示します。

ピアソン相関と距離相関の比較

距離相関が従来の指標とどのように異なるかを明確にするため、主要な性質を以下の表に整理します。

比較項目	ピアソンの積率相関係数	距離相関
捉えられる関係性	線形（直線的）な関係のみ	線形および非線形なすべての依存関係
値の範囲	$-1$ から $1$	$0$ から $1$
「相関 = 0」の意味	線形な関係がない（独立とは限らない）	統計的に独立である
非線形データの検出（例：$Y = X^2$）	ほぼ0（検出不可）	高い値（依存関係として検出可能）
計算負荷	極めて低い	高い（$O(n^2)$ の距離行列計算が必要）

（図1. 円形データにおける相関指標の比較）

上図のような円形のデータ分布の場合、ピアソン相関係数は0となります。これは、$X$ が増えるときに $Y$ が増える区間と減る区間が相殺されるためです。一方で、距離相関は「$X$ の値を知ることが $Y$ の値の予測に役立つか」という観点で距離を評価するため、正の有意な値を算出します。

実務における適用事例

距離相関は、単純な直線関係では捉えきれない複雑な物理現象や消費者行動を解明するための有効なアプローチとして、様々な分野で活用されています。

化学プラントにおける反応効率の最適化

背景
ある化学素材メーカーにおいて、特定の触媒を用いた反応工程の収率（アウトプット）と、複数の制御パラメータ（温度、圧力、撹拌速度）の関係を分析していました。初期の分析において、触媒の投入量と収率のピアソン相関係数は $0.12$ と低く、関係性は薄いと判断されかけていました。

分析と問題点
しかし、散布図を確認すると、投入量が少なすぎても多すぎても収率が低下する「釣鐘型」の非線形関係が示唆されました。このプロセスにおいて、従来の線形相関のみを指標にしていると、最適な投入量の存在を見落とし、生産コストの最適化機会を損失するリスクがありました。

解決策
距離相関を算出した結果、$dCor = 0.65$ という強い依存関係が検出されました。これにより、投入量が収率に対して決定的な影響を与えていることが数学的に裏付けられました。この結果を受け、チームは非線形回帰モデルを用いた最適化を行い、収率が最大化するピンポイントな投入条件を特定することに成功しました。線形相関の低さに惑わされず、真の依存関係を捉えた事例です。

（図2. 触媒投入量と収率の非線形関係（釣鐘型））

金融市場における銘柄間の非線形な連動性解析

背景
ヘッジファンドのリスク管理部門において、市場のストレス局面における複数の資産クラス（株式、債券、暗号資産など）の連動性をモニタリングしています。通常、これらの資産間には明確な線形相関が見られない時期もあります。

分析と問題点
従来の相関行列を用いたリスク管理では、平時において相関が低い資産同士を組み合わせることで分散投資を図ります。しかし、市場急変時には特定の資産間の関係が非線形に変化し、同時に暴落する「テールリスク」が存在します。ピアソン相関では、このような極端な条件下でのみ現れる複雑な依存構造を十分に捉えることができません。

解決策
資産価格の変動率（リターン）に対して距離相関を適用することで、線形なトレンドには現れない「価格の変動幅（ボラティリティ）の連動」や「非対称な依存関係」を可視化しました。距離相関が高いペアは、見かけ上の相関が低くても潜在的な連動リスクを抱えていると判断し、ポートフォリオのリスク配分を動的に調整する体制を構築しました。これにより、従来の分析では予測困難だった非線形な伝播リスクに対する耐性を強化しました。

（図3. 資産間のボラティリティ連動とテールリスク）

モデルの限界と活用上の留意点

距離相関は強力な指標ですが、実務で使用する際には以下の点に留意する必要があります。

計算コストの増大
サンプルサイズ $n$ に対して $n \times n$ の距離行列を扱うため、データ数が数万件を超える大規模なデータセットでは、計算時間とメモリ消費量が指数関数的に増加します。このような場合は、データのサンプリングや、計算効率を改善した近似アルゴリズムの検討が必要です。
方向性の欠如
ピアソン相関は正負の符号によって「一方が増えれば他方が増える（または減る）」という方向性を示しますが、距離相関は常に正の値であるため、関係の向きを直接知ることはできません。散布図の目視や他の統計量との併用が不可欠です。
多変量への拡張
距離相関の理論は、変数 $X$ や $Y$ が単一の数値ではなく、複数の変数を持つ「ベクトル」である場合にもそのまま適用可能です。これは、多次元のデータ群同士が全体として関連しているかを評価できる大きな利点となります。

まとめ

距離相関は、ピアソンの積率相関係数が抱える「非線形な関係性を捉えられない」という構造的課題を解決する統計量です。ダブルセンタリングされた距離行列を用いることで、あらゆる形式の統計的依存性を検出でき、値が0であれば真に独立であると断定できる厳密性を備えています。計算リソースを要するという側面はあるものの、複雑なメカニズムが絡み合う現代のデータ分析において、変数間の真の関連性を見抜くための補完的な、あるいは代替的な指標として極めて有用な役割を果たします。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company