高次元データを可視化・解析する際、第9.1項で解説した主成分分析(PCA)は標準的な手法として用いられます。しかし、PCAはデータの分散を最大化する「線形変換」に基づくため、データが非線形な多様体(低次元の曲面が高次元空間内で複雑に折り畳まれた構造)を形成している場合、その内在的な構造を適切に抽出・可視化することが困難です。
このような線形手法の限界を克服するために提案されたのが、多様体学習(Manifold Learning)に基づく非線形次元削減手法です。本項では、現在データサイエンスの多様な分野で標準的に採用されているt-SNE(t-Distributed Stochastic Neighbor Embedding)およびUMAP(Uniform Manifold Approximation and Projection)の理論的背景、数理構造、および実データへの適用事例について解説します。
1. t-SNEの数理的メカニズム
t-SNEは、高次元空間におけるデータ点間の類似度を確率分布として表現し、低次元空間(主に2次元または3次元)においてその確率分布を可能な限り再現するようにデータ点の座標を最適化する手法です。
高次元空間における類似度の確率化
高次元空間における2つのデータ点 $x_i$ と $x_j$ の類似度を、ガウス分布に基づく条件付き確率 $p_{j|i}$ として定義します。これは、$x_i$ を中心とした正規分布に従って近傍点を選択した場合に、$x_j$ が選ばれる確率に相当します。
$$
p_{j|i} = \frac{\exp(-\|x_i – x_j\|^2 / 2\sigma_i^2)}{\sum_{k \neq i} \exp(-\|x_i – x_k\|^2 / 2\sigma_i^2)}
$$
ここで、分散 $\sigma_i^2$ はデータ点ごとに異なり、Perplexity(パープレキシティ)と呼ばれるハイパーパラメータによって決定されます。Perplexityは、各データ点が「実質的にいくつの近傍点を持つとみなすか」を調整する指標であり、値が大きいほど大域的な構造を、小さいほど局所的な構造を重視することになります。
低次元空間におけるt分布の導入とCrowding Problemの解決
次元の呪いに関連する問題として、高次元空間に均等に分布している点は、低次元空間にマッピングする際に中心付近に密集してしまう「Crowding Problem(混雑問題)」が生じます。t-SNEは、低次元空間での類似度 $q_{ij}$ の計算に、ガウス分布ではなく裾が広い自由度1のt分布(コーシー分布)を採用することでこの問題を緩和します。
$$
q_{ij} = \frac{(1 + \|y_i – y_j\|^2)^{-1}}{\sum_{k \neq l} (1 + \|y_k – y_l\|^2)^{-1}}
$$
t分布の裾の広さにより、高次元空間で中程度に離れているデータ点は、低次元空間ではより遠くに配置されるように力が働き、異なるクラスターが明瞭に分離されやすくなります。
目的関数の最適化
高次元空間の同時確率 $P$ と低次元空間の同時確率 $Q$ の差異を最小化するため、カルバック・ライブラー情報量(KL情報量)を目的関数(コスト関数)として採用し、勾配降下法を用いて低次元の座標 $y$ を最適化します。
$$
C = \sum_i \sum_j p_{ij} \log \frac{p_{ij}}{q_{ij}}
$$
2. UMAPの数理的メカニズムとt-SNEとの差異
UMAPは、代数的位相幾何学(Algebraic Topology)およびリーマン幾何学の理論を基礎として構築された非線形次元削減手法です。t-SNEと同様に局所的な構造の保持に優れていますが、いくつかの理論的差異により、特定の課題において異なる挙動を示します。
ファジィ単体複体とクロスエントロピー
UMAPは、高次元データをファジィ単体複体(Fuzzy Simplicial Complex)としてモデル化し、低次元空間でも同様の位相構造を構築しようと試みます。最適化の目的関数として、KL情報量ではなく、以下のような交差エントロピー(Cross-Entropy)を採用しています。
$$
C = \sum_{i,j} \left[ p_{ij} \log \left(\frac{p_{ij}}{q_{ij}}\right) + (1 – p_{ij}) \log \left(\frac{1 – p_{ij}}{1 – q_{ij}}\right) \right]
$$
t-SNEの目的関数(KL情報量)が主に「近傍点の関係の保持」に強くペナルティを科すのに対し、UMAPの目的関数は右辺の第2項により「遠く離れた点の関係の保持(非近傍性の維持)」に対してもペナルティを与えます。この理論的構造により、UMAPはt-SNEと比較して、データ全体の相対的な位置関係(大域的構造)をより保持する傾向があるとされています。
計算複雑度とスケーラビリティ
UMAPのもう一つの技術的特徴は計算効率の高さです。初期化にグラフ表現に基づくスペクトラル埋め込み(Spectral Embedding)を利用し、確率的勾配降下法で最適化を行うため、大規模データセットに対してt-SNEよりも短時間で収束する傾向があります。
3. 適用事例
非線形次元削減手法は、明示的な特徴抽出が困難な多次元データを解釈するプロセスにおいて、探索的データ分析(EDA)の手段として機能します。
事例1:バイオインフォマティクスにおける単一細胞RNAシーケンス(scRNA-seq)分析
細胞レベルの遺伝子発現量を網羅的に測定するscRNA-seqでは、数万種類の遺伝子発現量が各次元を構成します(数万次元)。このデータをPCAで2次元に圧縮しても、細胞の種類(T細胞、B細胞、マクロファージなど)を明確に分離することは困難です。t-SNEやUMAPを適用することで、遺伝子発現パターンの類似した細胞群が低次元空間上で個別のクラスターを形成し、未知の細胞サブタイプの発見や、細胞の分化過程(トラジェクトリ)の推測が可能となります。
事例2:自然言語処理における単語埋め込みベクトルの可視化
Word2VecやBERTなどのモデルによって生成される単語ベクトルは、通常数百次元を持ちます。UMAPを用いてこれらのベクトルを2次元に次元削減しプロットすると、「王」と「女王」、「東京」と「日本」といった意味的・文法的に関連の深い単語が空間上で近接して配置される構造を視覚的に確認できます。これにより、言語モデルが獲得した意味表現の妥当性を定性的に評価することが可能です。
4. 実務における解釈上の注意点(制約事項)
t-SNEおよびUMAPを用いた分析結果の解釈には、数理的特性に起因する厳密な注意が必要です。プロットされた2次元空間の散布図を直感的に解釈することは、深刻な誤謬を招く危険性があります。
- クラスター間の距離の無効性: プロット上でクラスターAとBが近く、Cが遠くに配置されていたとしても、高次元空間において実際にAとBがCより類似しているとは限りません。特にt-SNEでは、大域的な距離関係は保証されません。
- クラスターサイズの無効性: アルゴリズムが局所的な密度を均一化しようと作用するため、プロット上のクラスターの面積(広がり)は、高次元空間における実際のデータの分散(ばらつき)を反映していません。密集したクラスターが小さく、分散したクラスターが大きく描画されるわけではありません。
- ハイパーパラメータへの依存性: Perplexity(t-SNE)やn_neighbors(UMAP)のわずかな変更で、プロットの形状は劇的に変化します。複数のパラメータ値を試行し、結果の頑健性(ロバストネス)を検証するプロセスが不可欠です。
まとめ
t-SNEとUMAPは、高次元データの局所的構造を維持したまま低次元にマッピングする非線形次元削減手法です。PCA等の線形手法では捉えきれない複雑なデータの分類状態を視覚化する上で有用です。計算速度および大域的構造の保持という観点からはUMAPが選択される事例が増加していますが、いずれの手法も「距離や密度の定量的評価には適さない」という理論的制約を前提とした上で、探索的分析のプロセスに組み込むことが求められます。
