判別分析(Discriminant Analysis)は、事前に所属するグループ(クラス)が明らかになっている観測データをもとに、新たな未知のデータがどのグループに分類されるかを予測するための分類規則(判別関数)を構築する多変量解析手法です。
目的変数がカテゴリカル変数(質的変数)であるという点において、ロジスティック回帰分析と目的は共通していますが、判別分析は説明変数の分布に対してより強い統計的仮定を置く「生成モデル」としてのアプローチをとります。本章では、代表的な手法である線形判別分析(LDA)と二次判別分析(QDA)、および分類の基準となるマハラノビス距離について解説します。
1. 判別分析の具体的な事例
手法の数理的性質を理解するため、企業の信用リスク評価の事例を想定します。
ある金融機関が、過去の融資先企業のデータを用いて、新規申込企業が将来「倒産する(クラス0)」か「存続する(クラス1)」かを予測するモデルを構築するとします。このとき、説明変数として「自己資本比率($x_1$)」と「流動比率($x_2$)」という2つの連続変数を用います。
判別分析の目的は、これら2つの指標の次元空間上において、倒産企業グループと存続企業グループを最も明確に分離できる「境界線(決定境界)」を数学的に導き出すことです。エドワード・アルトマンによって開発された企業の倒産予測指標「Zスコア」も、この線形判別分析の応用例として知られています。
2. 線形判別分析(LDA: Linear Discriminant Analysis)
線形判別分析(LDA)は、グループ間の分離を最大化するような変数の線形結合(一次式)を求める手法です。ロナルド・フィッシャーによって提唱されたフィッシャーの線形判別関数が基礎となっています。
目的関数と分散の比の最大化
LDAは、データを低次元の空間(通常は1次元の直線)に射影した際に、以下の2つの条件を同時に満たす最適な射影ベクトル(重み)$w$ を探索します。
- クラス間分散(Between-class variance)の最大化: 射影後の各グループの平均値が、互いに可能な限り遠く離れるようにする。
- クラス内分散(Within-class variance)の最小化: 射影後の同一グループ内のデータポイントのばらつきが、可能な限り小さく密集するようにする。
これを数学的に表現すると、クラス間変動行列を $S_B$、クラス内変動行列を $S_W$ としたとき、以下のフィッシャーの判別基準(レイリー商)$J(w)$ を最大化する問題に帰着します。
$$
J(w) = \frac{w^T S_B w}{w^T S_W w}
$$
この最大化問題は、一般化固有値問題 $S_B w = \lambda S_W w$ を解くことによって解析的に最適解(固有ベクトル)を得ることができます。
LDAの統計的仮定
LDAが最適かつ理論的に妥当な分類器として機能するためには、データ生成過程に関して以下の厳密な仮定が満たされている必要があります。
- 多変量正規性の仮定: 各クラス内の説明変数のデータが、多変量正規分布に従っていること。
- 等分散性の仮定: すべてのクラスにおいて、分散共分散行列が同一であること($\Sigma_1 = \Sigma_2 = \dots = \Sigma$)。
上記の仮定が満たされる場合、ベイズの定理に基づく事後確率の対数比は説明変数の線形結合(一次式)となり、クラス間の決定境界は直交する「直線」または「超平面」となります。
3. マハラノビス距離による分類
判別分析における新しいデータの分類プロセスは、「対象データが各クラスの中心(重心)からどれだけ離れているか」という距離の概念で説明されます。このとき、単純なユークリッド距離ではなく「マハラノビス距離(Mahalanobis Distance)」が用いられます。
ユークリッド距離の限界
前述の企業評価の事例において、自己資本比率(%)と流動比率(%)は、値の取り得るスケールや分散が異なります。また、両者には正の相関関係が存在する可能性があります。ユークリッド距離はこれらの「変数のスケールの違い」と「変数間の相関」を考慮しないため、相関が強い方向に分布が広がっている場合、適切な距離を測ることができません。
マハラノビス距離の定義
マハラノビス距離は、データの分散共分散行列の逆行列を用いることで、分布の広がりと相関を標準化した距離空間を構築します。データベクトル $x$ とクラスの平均ベクトル $\mu$、および共分散行列 $\Sigma$ を用いたマハラノビス距離の平方 $D^2$ は次のように定義されます。
$$
D^2 = (x – \mu)^T \Sigma^{-1} (x – \mu)
$$
LDAでは、等分散性の仮定により全クラス共通のプールされた共分散行列 $\Sigma$ を使用します。未知のデータが入力された際、モデルは各クラスの中心とのマハラノビス距離を計算し、最も距離が短い(=所属確率が最も高い)クラスへ分類します。
4. 二次判別分析(QDA: Quadratic Discriminant Analysis)
二次判別分析(QDA)は、LDAの「等分散性の仮定」を緩和した拡張モデルです。
共分散行列の非同一性
現実のデータでは、クラスごとにデータのばらつき方が異なることが多々あります。例えば、「存続企業」の財務指標は一定の狭い範囲に安定して集中しているのに対し、「倒産企業」の指標は極端に高い値から低い値まで広範囲に分散している場合があります。すなわち、クラスごとの共分散行列が異なる($\Sigma_1 \neq \Sigma_2$)状態です。
QDAでは、クラス共通の共分散行列を仮定せず、クラス $k$ ごとに固有の分散共分散行列 $\Sigma_k$ を推定します。この仮定のもとでベイズの定理から判別関数を導出すると、変数の二次項($x_i^2$ や $x_i x_j$)が含まれる形になります。
決定境界とトレードオフ
結果として、QDAにおける決定境界は直線ではなく、二次曲線(楕円、双曲線、放物線など)となります。これにより、LDAよりも複雑なデータ構造を捉えることが可能になります。
しかし、統計モデリングにおけるトレードオフが存在します。QDAは各クラスの共分散行列を個別に推定する必要があるため、推定すべきパラメータ数がLDAと比較して大幅に増加します。変数の次元数が多い場合やサンプルサイズが小さい場合、QDAは過学習(オーバーフィッティング)を起こしやすくなります。対照的に、LDAはパラメータ数が少なく分散の推定が安定するため、仮定が完全に満たされていなくとも汎化性能が高くなる傾向があります。
5. ロジスティック回帰分析との比較と選択基準
実務においては、同じ分類タスクに対してLDA/QDAとロジスティック回帰(第7章)のどちらを選択すべきかが問題となります。
- 分布の仮定: LDAは説明変数が正規分布に従うことを前提とした生成モデルです。一方、ロジスティック回帰は説明変数の分布に特段の仮定を置かない識別モデルであり、外れ値や非正規分布のデータに対してより頑健(ロバスト)です。
- サンプルサイズと安定性: データが正規分布に近く、サンプルサイズが比較的小さい場合は、共分散を明示的に利用するLDAの方が推定が安定し、高い予測精度を示します。
- カテゴリ変数: 説明変数にダミー変数(0または1)などのカテゴリデータが含まれる場合、多変量正規性の仮定が著しく損なわれるため、ロジスティック回帰が推奨されます。
まとめ
判別分析(LDA・QDA)は、マハラノビス距離という明確な幾何学的基準と、分散の比の最大化という解析的なアプローチを用いてデータを分類する手法です。
- LDA: 各クラスの分散共分散行列が等しいと仮定し、線形(直線・平面)の決定境界を引く。パラメータが少なく安定している。
- QDA: クラスごとに異なる分散共分散行列を許容し、二次曲線の決定境界を引く。複雑な境界を表現できるが、十分なサンプルサイズが要求される。
分析対象のデータが持つ分布の特性(正規性や分散の等質性)を事前確認し、モデルの仮定とデータ構造の適合性を評価することが、予測精度の高い判別モデルを構築するための必須条件となります。
