2026年 3月 13日 金曜日

Top 5 This Week

Related Posts

9.2 因子分析(FA)


因子分析(Factor Analysis: FA)は、多数の観測変数(データとして直接測定された変数)の間に存在する相関関係を分析し、それらの背後に潜む少数の直接測定できない潜在変数(共通因子)を見つけ出すための多変量解析手法です。心理学における知能や性格の測定から発展し、現在ではマーケティングリサーチや社会調査など、多様な分野で潜在的な構造を明らかにするために標準的に用いられています。

しばしば主成分分析(PCA)と混同されますが、両者は数理的な前提と目的が明確に異なります。PCAが「観測変数の分散を最大限に保持するように変数を合成し、情報を要約する」手法であるのに対し、因子分析は「背後にある潜在変数が観測変数の値に影響を与えている(因果関係がある)」という仮説モデルに基づいて、データの生成過程を説明しようとする手法です。

1. 因子分析の数理モデル

因子分析では、各観測変数が「複数の観測変数に共通して影響を与える因子(共通因子)」と、「その観測変数独自の部分および測定誤差(独自因子)」の線形結合で表現できると仮定します。

基本方程式

観測変数を $x_i$ ($i = 1, 2, \dots, p$)、共通因子を $f_j$ ($j = 1, 2, \dots, m$、$m < p$)、独自因子を $e_i$ とします。各観測変数は以下のように定式化されます。

$$
x_i = \mu_i + \lambda_{i1}f_1 + \lambda_{i2}f_2 + \dots + \lambda_{im}f_m + e_i
$$

ここで、$\mu_i$ は観測変数 $x_i$ の平均です。$\lambda_{ij}$ は「因子負荷量(Factor Loading)」と呼ばれ、共通因子 $f_j$ が観測変数 $x_i$ に与える影響の大きさを表す係数です。これは回帰分析における偏回帰係数に相当する役割を果たします。

分散の分解(共通性と独自性)

観測変数 $x_i$ が標準化されている(分散が1)と仮定し、共通因子間が無相関である直交モデルの場合、観測変数の分散は以下の2つの要素に分解されます。

$$
V(x_i) = (\lambda_{i1}^2 + \lambda_{i2}^2 + \dots + \lambda_{im}^2) + V(e_i) = 1
$$

式中の $\sum \lambda_{ij}^2$ の部分を「共通性(Communality)」と呼びます。これは、観測変数 $x_i$ の分散のうち、共通因子によって説明される割合を示します。残りの $V(e_i)$ は「独自性(Uniqueness)」と呼ばれ、共通因子では説明できない部分(その変数固有の性質や測定誤差)を表します。

2. 具体的な適用事例:スマートフォン製品の顧客評価

因子分析がどのように機能するかを理解するために、あるスマートフォン新製品に対する顧客アンケートの事例を考えます。5つの項目について、1(不満)から5(満足)の5段階で評価を取得したとします。

  • $x_1$: 本体デザインの洗練度
  • $x_2$: カラーバリエーションの豊富さ
  • $x_3$: アプリの起動速度
  • $x_4$: 3Dゲームの滑らかさ
  • $x_5$: バッテリーの持続時間

これらの変数の相関行列を確認すると、$x_1$ と $x_2$ の間に強い正の相関があり、また $x_3, x_4, x_5$ の間にも強い正の相関が確認されたとします。しかし、$x_1$ と $x_3$ の間にはほとんど相関がありません。

ここで因子分析を適用し、$m=2$(共通因子が2つ)のモデルを構築します。分析の結果、以下のような因子負荷量が得られたと解釈します。

  • 第1因子($f_1$): $x_3, x_4, x_5$ に対して大きな正の因子負荷量を持つ。これを「機能的パフォーマンス」因子と命名します。
  • 第2因子($f_2$): $x_1, x_2$ に対して大きな正の因子負荷量を持つ。これを「審美性(デザイン性)」因子と命名します。

このように、因子分析を用いることで、5つの個別のアンケート項目を「機能的パフォーマンス」と「審美性」という2つの潜在的な評価軸に集約し、顧客が製品をどのような心理的次元で評価しているかを定量的に把握することが可能になります。

3. 因子の抽出方法

因子負荷量 $\lambda_{ij}$ と独自因子の分散をデータから推定するためには、いくつかの数学的なアプローチが存在します。

最尤法(Maximum Likelihood Method)

観測データが多変量正規分布に従うという仮定のもとで、観測された相関行列が生成される確率(尤度)を最大化するように母数を推定します。統計的な検定(因子の数が妥当であるかの適合度検定)が可能であるという利点があります。

主因子法(Principal Factor Method)

反復計算を用いず、相関行列の対角成分を共通性の初期推定値(例えば重相関係数の二乗など)で置き換えた上で固有値分解を行う手法です。データが正規分布に従わない場合や、最尤法で計算が収束しない(不適解が生じる)場合の代替手法として用いられます。

4. 因子回転(Factor Rotation)

因子の抽出直後に得られる初期解は、数学的には条件を満たしているものの、多くの観測変数が複数の因子に対して中途半端な負荷量を持つため、人間にとって意味を解釈することが困難です。そこで、モデルの適合度(説明力)を変えずに、因子軸を回転させることで解釈を容易にする操作を行います。これを「単純構造(Simple Structure)の追求」と呼びます。

単純構造とは、各観測変数が特定の1つの因子に対してのみ高い負荷量を持ち、他の因子に対してはゼロに近い負荷量を持つ状態を指します。

直交回転(Orthogonal Rotation)

抽出された共通因子同士が無相関である(直交している)という制約を維持したまま軸を回転させます。

  • バリマックス回転(Varimax Rotation): 各因子における因子負荷量の分散を最大化する手法です。これにより、負荷量が大きい変数と小さい変数の差が明確になり、因子の解釈が最も容易になるため、直交回転の標準的な手法として広く普及しています。

斜交回転(Oblique Rotation)

共通因子同士の相関を許容して軸を回転させます。現実の社会現象や心理特性(例:知能テストにおける言語能力と数理能力など)において、潜在因子が完全に無相関である状況は稀であるため、近年では斜交回転の適用が推奨される傾向にあります。

  • プロマックス回転(Promax Rotation): バリマックス回転を行った後、因子の相関を許容してさらに単純構造に近づける手法です。計算が高速であり、斜交回転の主流となっています。

5. 因子数の決定基準

因子分析において「いくつの共通因子を抽出するか($m$ の決定)」は、分析者の主観を排除し、客観的な基準に基づいて行う必要があります。

カイザー基準(固有値基準)

相関行列の固有値が1以上の因子のみを採用する基準です。固有値が1未満の因子は、1つの観測変数単独よりも少ない情報量しか持たないとみなされるため除外します。簡便ですが、変数の数が多い場合に因子を過大評価する傾向があります。

スクリープロット(Scree Plot)

横軸に因子の数、縦軸に固有値をプロットした折れ線グラフを作成します。固有値の低下が急激な勾配から緩やかな勾配へと変化する「なだらかな崖(スクリー)」の開始点の手前までを因子数として採用する視覚的な手法です。

平行分析(Parallel Analysis)

元のデータと同じサンプルサイズ、同じ変数数の乱数データ(ランダムノイズ)を生成し、そこから得られた固有値と、実際のデータから得られた固有値を比較します。実際のデータの固有値が乱数データの固有値を上回っている数だけ因子を採用します。現在、最も統計的に妥当な因子数の決定方法の一つとされています。

まとめ

因子分析は、多変量データに潜む「見えない構造」を可視化・定量化するための強力な分析枠組みです。

  • 変数の背後にある原因の特定: 観測された相関関係を、少数の潜在因子による因果モデルとして説明します。
  • 次元削減と尺度開発: 多数のアンケート項目を少数の評価軸に要約し、その後の回帰分析やクラスタリングの入力変数(因子得点)として活用することができます。
  • 妥当性の検証: 測定ツール(アンケートなど)が、意図した概念を正しく測定できているか(構成概念妥当性)を検証するために必須の手法です。

PCAとの違いを正しく理解し、直交・斜交の回転手法や因子数の決定基準を適切に選択することで、データ生成メカニズムに対する解像度を大幅に高めることが可能になります。

Popular Articles