第9章のこれまでの項で解説したK-means法や階層型クラスタリングは、実務において広く用いられる手法です。しかし、K-means法は「クラスターが球状(等方性)であること」を暗黙の前提としており、クラスターのサイズや分散が大きく異なる場合や、複雑な形状のデータに対しては適切な分類が困難です。また、外れ値(ノイズ)の影響を強く受けるという特性があります。
本項では、これらの課題を克服するための高度なクラスタリング手法として、確率分布に基づく「ガウス混合モデル(GMM)」と、データ空間の密度に基づく「DBSCAN」の数理的背景と適用条件について解説します。
1. ガウス混合モデル(GMM:Gaussian Mixture Model)
ガウス混合モデル(GMM)は、観測されたデータが「複数のガウス分布(多変量正規分布)の重ね合わせによって生成された」と仮定する確率的生成モデルです。距離のみに依存するK-means法とは異なり、各クラスターの「平均」と「分散(ばらつきの形状)」の両方を推定します。
確率モデルの定式化
データ $\mathbf{x}$ が得られる確率密度関数 $p(\mathbf{x})$ は、$K$ 個のガウス分布の線形結合として以下のように定義されます。
$$
p(\mathbf{x}) = \sum_{k=1}^{K} \pi_k \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)
$$
ここで、$\pi_k$ は混合係数(各クラスターが選ばれる事前確率、$\sum \pi_k = 1$)、$\mathcal{N}$ は多変量正規分布、$\boldsymbol{\mu}_k$ はクラスター $k$ の平均ベクトル、$\boldsymbol{\Sigma}_k$ は分散共分散行列を表します。分散共分散行列 $\boldsymbol{\Sigma}_k$ を推定することにより、GMMは楕円形や斜めに引き伸ばされた形状のクラスターを表現することが可能です。
EMアルゴリズムによるパラメータ推定
GMMのパラメータ($\pi_k, \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k$)の推定には、解析的な解が存在しないため、EMアルゴリズム(Expectation-Maximization algorithm)と呼ばれる反復手法が用いられます。
- Eステップ(Expectation): 現在のパラメータの推定値を用いて、各データ点が各クラスターに属する事後確率(負担率:Responsibility)を計算します。
- Mステップ(Maximization): Eステップで求めた負担率を重みとして用い、尤度関数が最大化されるように各パラメータ(平均、分散共分散行列、混合係数)を更新します。
これを対数尤度が収束するまで繰り返します。
【事例】ソフトクラスタリングによる顧客セグメンテーション
K-means法が各データを必ず1つのクラスターに割り当てる「ハードクラスタリング」であるのに対し、GMMは「クラスターAに属する確率70%、クラスターBに属する確率30%」といった確率的な所属度合いを出力する「ソフトクラスタリング」です。
事例:小売業における顧客の購買行動データの分類において、ある顧客が「平日の夕方に日用品を買う(主婦層の特性)」行動と「休日に高単価の嗜好品を買う(趣味層の特性)」行動を併せ持っている場合、GMMを用いることで「この顧客は主婦層クラスターに確率0.6、趣味層クラスターに確率0.4で属している」という定量的な評価が可能になります。これにより、ボーダーライン上の顧客に対する細やかなマーケティング施策の立案が容易になります。
2. 密度準拠クラスタリング(DBSCAN)
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は、データが高密度に密集している領域をクラスターとして抽出し、密度の低い領域にあるデータをノイズ(外れ値)として除外する手法です。GMMやK-means法が対応できない、ドーナツ型や三日月型のような任意の形状を持つクラスターを発見するのに適しています。
アルゴリズムの定義とパラメータ
DBSCANは以下の2つのハイパーパラメータによって制御されます。
- $\epsilon$ (イプシロン): 密度を評価するための特定の半径(距離の閾値)。
- $MinPts$ (最小データ数): 半径 $\epsilon$ の円(または超球)内に存在すべき最小のデータ点数。
3つのデータ点の分類
上記のパラメータに基づき、データ空間内のすべての点は以下の3つに厳密に分類されます。
- コア点(Core point): 自身の $\epsilon$-近傍内に $MinPts$ 以上の点を持つ点。高密度領域の内部を構成します。
- 境界点(Border point): 自身の近傍内の点は $MinPts$ 未満だが、コア点の $\epsilon$-近傍内に位置する点。クラスターの周縁部を形成します。
- ノイズ点(Noise point): コア点でも境界点でもない点。どのクラスターにも属さない外れ値として処理されます。
DBSCANは、互いに到達可能なコア点を連結していくことで1つの大きなクラスターを形成し、最終的に境界点を付随させます。
【事例】GPS空間データにおける滞留ポイントの抽出
DBSCANは、事前にクラスター数 $K$ を指定する必要がないため、空間データの分析において極めて有用です。
事例:カーナビゲーションやスマートフォンのGPS軌跡データから、「観光客が実際に長時間滞在した観光スポット(意味のある場所)」を抽出するタスクを想定します。データには、信号待ちや渋滞による一時的な停止、あるいはGPSの計測誤差(ノイズ)が多数含まれています。ここでDBSCANを適用すると、一定の空間的密集度を満たす地点のみをクラスターとして抽出し、単なる移動経路やノイズ点を自動的に除外することができます。
3. クラスタリング手法の比較
実務においては、データの特性や分析の目的に応じて適切なアルゴリズムを選択する必要があります。代表的な3手法の比較を以下の表にまとめます。
| 比較項目 | K-means法 | GMM(ガウス混合モデル) | DBSCAN |
|---|---|---|---|
| 基本原理 | 重心との距離(分散の最小化) | 確率分布(多変量正規分布)の混合 | 空間的なデータの密度 |
| クラスター数の指定 | 必要(事前に $K$ を決定) | 必要(事前に $K$ を決定) | 不要(アルゴリズムが自動決定) |
| クラスターの形状 | 球状(等方性)に限定される | 楕円形など(分散共分散行列に依存) | 任意の複雑な形状(非線形)に対応 |
| 所属の出力形式 | ハード(必ず1つのクラスターに所属) | ソフト(各クラスターへの所属確率を出力) | ハード(クラスター所属 または ノイズ) |
| 外れ値・ノイズへの耐性 | 低い(平均値が外れ値に引っ張られる) | 低い〜中(分布の裾が影響を受ける) | 高い(ノイズ点として明示的に除外される) |
| 主要なパラメータ | クラスター数 $K$ | クラスター数 $K$、共分散行列の制約 | 半径 $\epsilon$、最小点数 $MinPts$ |
まとめ
高度なクラスタリング手法は、K-means法が抱える構造的な制約を解消するために用いられます。観測データに対して確率的な解釈や不確実性の評価が求められる場合はGMMが適しており、空間的な密集度の抽出や、外れ値が多く存在する非定型データからのパターン発見を目的とする場合はDBSCANが適しています。分析者はデータの分布構造を事前に可視化・把握した上で、これらのアルゴリズムを適切に使い分けることが求められます。
