3.4 多変量データの相関探索テクニック

多変量データの相関探索テクニック

実際のデータ分析プロジェクトにおいて、変数が2つだけで完結するケースは極めて稀です。多くの場合、数十から数百に及ぶ多変量（Multivariate）データを対象とします。変数の数を $p$ としたとき、確認すべき変数ペアの数は $\frac{p(p-1)}{2}$ 通りとなり、変数の増加に伴って組み合わせは爆発的に増加します。このような状況下で、1つずつ散布図を作成し相関係数を計算していくアプローチは非効率的であり、探索的データ分析（EDA: Exploratory Data Analysis）の段階において全体像を見失う原因となります。

本項では、多変量データの中から意味のある関係性を効率的かつ網羅的に見つけ出すための探索テクニックと、その解釈における数理的な視点について解説します。

散布図行列（ペアプロット）による情報の一元化

多変量の相関探索において最も標準的かつ強力な視覚化手法が「散布図行列（Scatterplot Matrix / Pair Plot）」です。これは、対象となる複数の変数を縦横のグリッド状に配置し、変数間の関係性を一枚の図に集約するアプローチです。

散布図行列は、配置される位置によって異なる統計的情報を提供します。

対角成分（Diagonal）
各変数自身の単一分布（周辺分布）を示します。一般的にはヒストグラムやカーネル密度推定の曲線が描画されます。相関を評価する前に、各変数が正規分布に従っているか、双峰性（山が2つある状態）を持たないか、外れ値が存在しないかを確認するための基盤となります。
非対角成分（Off-Diagonal）
行と列が交差する位置に、2変数間の関係性が表示されます。対角線を挟んで上側の三角領域（上三角行列）にはピアソンの積率相関係数やスピアマンの順位相関係数の数値を、下側の三角領域（下三角行列）には実際のデータポイントを打った散布図を配置する形式が一般的です。

この一元化された図面を用いることで、数値（相関係数）の大きさと、実際の分布形状（線形性、クラスタの存在、外れ値）を同時に比較評価することが可能になります。相関係数が高くても散布図がいびつな形状をしている変数ペアや、逆に相関係数は低いものの非線形な関係性が視認できる変数ペアを即座にスクリーニングできます。

カテゴリ変数による層別化（色分け）の統合

散布図行列をさらに拡張するテクニックとして、データセットに含まれる質的変数（カテゴリ変数）を用いて、プロットの「層別化（Stratification）」を行う方法があります。散布図上のデータポイントや対角成分の密度曲線を、特定のカテゴリ（例：顧客のランク、製造ラインの番号、性別など）ごとに色分けして描画します。

多変量データにおいては、全体をプールした（混ぜ合わせた）状態では相関が見えなくても、特定の条件（カテゴリ）で分割した途端に明確な相関が現れる現象が頻繁に発生します。これは統計モデルにおいて「交互作用（Interaction）」と呼ばれる構造の兆候であり、層別化を組み込んだ散布図行列は、この交互作用を視覚的に検出するための最良の手段となります。

説明変数間の相関（多重共線性）の事前検知

相関探索は、目的変数（予測したい対象）と説明変数（予測に使う要因）の関係を探るだけでなく、説明変数同士の相関関係を確認する上でも重要です。説明変数間に極めて強い相関（例えば $|r| > 0.8$）が存在する場合、後続の重回帰分析などの多変量解析において「多重共線性（Multicollinearity）」という数理的な問題を引き起こします。

多重共線性が生じると、回帰係数の分散が不必要に拡大し、モデルの推定結果が不安定になります。散布図行列を用いて説明変数群の相関構造を俯瞰し、強い相関を持つ変数ペアを発見した場合は、一方の変数を分析から除外する、あるいは主成分分析（PCA）を用いて変数を合成・次元削減する、といった前処理の方針を早期に決定することができます。

実務における多変量相関探索の事例

小売業のデータサイエンス部門における、顧客の購買行動データを用いた相関探索のプロセスを解説します。

背景
ある総合小売企業において、顧客生涯価値（LTV）を最大化するための優良顧客育成モデルを構築するプロジェクトが進行しています。顧客データベースからは、「年齢」「世帯年収」「年間店舗来店回数」「オンラインストア閲覧時間」「累積ポイント獲得数」「アプリ起動日数」という6つの連続型変数と、「会員ランク（一般・プレミアム）」というカテゴリ変数が抽出されました。

分析アプローチ
6つの連続型変数すべて（計15ペア）に対して散布図行列を作成しました。対角成分には各変数の確率密度分布を配置し、非対角成分には散布図と相関係数を描画しました。さらに、全体のデータポイントを「会員ランク」によって2色に層別化して視覚化しました。

思考プロセスと発見
出力された散布図行列を俯瞰した結果、以下の重要な構造が明らかになりました。

（図1. 顧客データ（6変数）の散布図行列と層別化）

「オンラインストア閲覧時間」と「世帯年収」の交差部分において、全体の相関係数は $r = 0.25$ と微弱でした。しかし、層別化された散布図を確認すると、プレミアム会員（青色）の群では $r = 0.65$ の明確な正の相関が描かれている一方、一般会員（赤色）の群では無相関（傾きゼロの水平な分布）であることが視認されました。
対角成分の「年間店舗来店回数」の密度分布において、分布の山が2つ存在する（双峰性）ことが判明しました。これも色分けを確認すると、プレミアム会員の山と一般会員の山が明確に分離していることが原因でした。
「累積ポイント獲得数」と「アプリ起動日数」の間には全体で $r = 0.88$ という極めて強い正の相関関係があり、データポイントが完全に直線上に並んでいました。

結論
この探索結果から、LTV向上施策において「年収に応じたオンライン購買の促進」は、すでに一定の関与度を持つプレミアム会員に対してのみ有効なアプローチであることが論理的に導き出されました。また、「ポイント獲得数」と「アプリ起動日数」は情報としてほぼ重複しており、予測モデル構築時に多重共線性を引き起こすリスクがあるため、一方を次元削減で集約する方針が決定されました。全体の数値を漫然と計算するのではなく、散布図行列と層別化を駆使することで、モデリングの精度を左右する重要な特徴を漏れなく捕捉することができました。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company