2026年 3月 13日 金曜日

Top 5 This Week

Related Posts

9.3 多次元尺度構成法(MDS)と対応分析


多変量データの背後にある構造を理解する際、数値をそのまま眺めるだけでは全体像の把握が困難です。第9章の前半で解説した主成分分析(PCA)や因子分析(FA)は、主に連続変数からなるデータ行列の次元を削減し、変数の関係性を要約する手法でした。

本項で解説する「多次元尺度構成法(MDS: Multidimensional Scaling)」と「対応分析(CA: Correspondence Analysis)」は、データの「個体間の類似度(距離)」や「カテゴリ変数間の関連性」に焦点を当て、それらを低次元(主に2次元または3次元)の空間上に視覚的にマッピング(配置)するための次元削減手法です。探索的データ分析において、データの潜在的な構造やグループ間の関係性を客観的に評価するために用いられます。

1. 多次元尺度構成法(MDS)

多次元尺度構成法(MDS)は、複数の対象物(個体)間の「非類似度(距離)」や「類似度」のデータから、対象物間の相対的な位置関係を低次元空間上の座標として再構成する手法です。

MDSの数理的アプローチと分類

元の非類似度行列を $D = [d_{ij}]$($d_{ij}$ は対象 $i$ と対象 $j$ の非類似度)、低次元空間に配置された後の座標間距離(通常はユークリッド距離)を $\hat{d}_{ij} = \|x_i – x_j\|$ とします。MDSの目的は、$d_{ij}$ と $\hat{d}_{ij}$ の乖離を最小化するような座標 $X$ を求めることです。入力データの性質により、主に2つのアプローチに大別されます。

(1) 計量MDS(Metric MDS / 主座標分析: PCoA)

非類似度 $d_{ij}$ が比率尺度や間隔尺度(物理的な距離など)として定量的な意味を持つ場合に適用されます。計量MDSは、元の距離を可能な限り維持するように座標を決定します。

古典的MDS(Torgersonのスケーリング)では、距離行列の要素を2乗した行列 $D^{(2)}$ に対して二重中心化(行と列の平均を引く操作)を行い、内積行列 $B$ を求めます。

$$
B = -\frac{1}{2} H D^{(2)} H
$$

ここで、$H = I – \frac{1}{n}\mathbf{1}\mathbf{1}^T$ は中心化行列です。この内積行列 $B$ を固有値分解し、上位の固有値とそれに対応する固有ベクトルから低次元座標を計算します。これは距離行列を入力とする主成分分析(PCA)と数理的に等価です。

(2) 非計量MDS(Non-metric MDS)

非類似度 $d_{ij}$ が順序尺度(アンケートの順位や、主観的な類似度評価など)である場合に適用されます。元の非類似度の「値そのもの」ではなく、「大小関係(順位)」を維持することを目的とします。

非計量MDSでは、元の非類似度 $d_{ij}$ の単調変換関数 $f(d_{ij})$ を導入し、配置された座標間距離 $\hat{d}_{ij}$ との誤差平方和を最小化する最適化計算(等張回帰)を反復的に行います。この適合度の欠如を表す代表的な目的関数が「クラスカルのストレス値(Kruskal’s Stress)」です。

$$
\text{Stress} = \sqrt{ \frac{\sum_{i < j} (\hat{d}_{ij} - f(d_{ij}))^2}{\sum_{i < j} \hat{d}_{ij}^2} } $$

ストレス値は0から1(または100%)の範囲をとり、一般に0.05以下であれば適合度が高く、0.10程度であれば許容範囲と評価されます。

【事例】製品のポジショニング分析(非計量MDS)

マーケティングリサーチにおいて、自社製品と競合製品(計10ブランド)の消費者からの認知構造を分析する状況を想定します。「ブランドAとブランドBはどれくらい似ているか」を被験者に1(全く似ていない)から10(非常に似ている)の尺度で評価させます。これを集計して得られた非類似度行列に対して非計量MDSを適用します。

出力された2次元マップにおいて、近接して配置されたブランド群は消費者から「代替可能」と認識されていることを示します。また、どのブランドも配置されていない空白領域(ホワイトスペース)が存在すれば、そこが新規参入の余地(未充足のニーズ)であると定量的に仮説を立てることが可能になります。

2. 対応分析(Correspondence Analysis)

対応分析(コレスポンデンス分析)は、2つのカテゴリ変数から作成された「クロス集計表(分割表)」を対象とし、行カテゴリと列カテゴリの関連性を同時に低次元空間(主に2次元)にプロットする手法です。行と列の情報を同一の散布図上に描画(バイプロット)することで、変数の結びつきを視覚的に把握します。

カイ二乗距離と残差の特異値分解

対応分析の数理的な基礎は、クロス集計表における変数間の独立性の検定(ピアソンのカイ二乗検定)と密接に関連しています。

観測度数行列を $N$、総度数を $n$ とし、同時確率行列 $P = N/n$ を定義します。行の周辺確率(各行の合計割合)を $r$、列の周辺確率を $c$ とします。行と列が完全に独立している場合、各セルの期待確率は $rc^T$ となります。
対応分析では、観測値と期待値のズレ(標準化残差)行列 $Z$ を以下のように定義します。

$$
Z_{ij} = \frac{p_{ij} – r_i c_j}{\sqrt{r_i c_j}}
$$

この行列 $Z$ の要素の2乗和は、カイ二乗統計量を総度数で割った値(総慣性:Total Inertia)に一致します。対応分析は、この行列 $Z$ に対して特異値分解(SVD: Singular Value Decomposition)を行い、総慣性を最大化するように各カテゴリの低次元座標を計算します。

ユークリッド距離ではなく「カイ二乗距離(周辺確率で重み付けされた距離)」を用いることで、出現頻度の極端に少ないカテゴリが空間全体の配置に過度な影響を与えることを防ぐという統計的特性を持っています。

バイプロットの解釈における注意点

対応分析によって出力された散布図(バイプロット)の解釈には、厳密なルールが存在します。

  • 行カテゴリ間の距離: 行プロファイル(各行における列カテゴリの構成比)の類似度を表します。近くにある行カテゴリは、似たような傾向を持っていると解釈できます。(列カテゴリ間についても同様)
  • 原点からの距離: 原点(中心)は全体の平均的なプロファイルを表します。原点から遠く離れたカテゴリほど、特徴的(特定のカテゴリと強い関連を持つ)であることを示します。
  • 行カテゴリと列カテゴリの位置関係: 行の点と列の点の「物理的な距離」を直接測ってはいけません。ある行カテゴリの点から原点へ直線を結び、その方向に位置する列カテゴリほど、正の強い相関関係(期待値よりも高い観測頻度)を持つと解釈します。

【事例】顧客属性と購買カテゴリの関連性分析

小売業の顧客データを用いて、「年代(20代、30代、40代、50代、60代以上)」を行、「よく購入する商品のカテゴリ(健康食品、美容、家電、書籍、衣料品)」を列としたクロス集計表を作成し、対応分析を適用します。
バイプロットを描画した結果、「20代」と「美容」、「60代以上」と「健康食品」が原点から見て同じ方向に遠く配置されたとします。これは、20代は美容カテゴリと、60代以上は健康食品カテゴリと強い結びつきがあることを示します。また、「40代」と「50代」の点が非常に近接していれば、この2つの年代は商品カテゴリに対する購買傾向(プロファイル)が統計的に類似しており、マーケティング施策を統合できる可能性があると判断できます。

3. 多重対応分析(MCA)への拡張

標準的な対応分析は2つのカテゴリ変数のクロス集計表を対象としますが、3つ以上のカテゴリ変数を同時に分析する手法として「多重対応分析(MCA: Multiple Correspondence Analysis)」が存在します。
MCAでは、各回答者のデータを0と1で表現した指示行列(Indicator Matrix)、または全変数のペアごとのクロス集計表をまとめたバート行列(Burt Matrix)を構築し、それに対して対応分析のアルゴリズムを適用します。これにより、多次元のアンケートデータから、全体的な回答パターンの布置を1つのマップ上に描画することが可能になります。

まとめ

MDSと対応分析は、いずれもデータの背後にある隠れた構造や関係性を、人間が視覚的に解釈可能な形で抽出する次元削減アプローチです。

  • MDS: 個体間の「距離・類似度行列」を入力とし、対象物の相対的な位置関係を配置する手法。
  • 対応分析: カテゴリ変数の「クロス集計表」を入力とし、カテゴリ間の関連性の強さを行列の特異値分解によって配置する手法。

分析目的と入力データの形式(距離データか、度数データか)に応じて適切な手法を選択することで、複雑なデータから客観的な仮説生成や構造理解を行うことができます。

Popular Articles