データ分析の現場では、「データが独立していない」という状況に頻繁に遭遇します。例えば、「全国の学校から抽出した生徒のテストの点数」を分析する場合、同じ学校(あるいは同じクラス)に属する生徒同士は、同じ教師の指導を受け、似た教育環境を共有しているため、互いに似通った傾向を持つ可能性が高くなります。また、医療統計における「同一患者の血圧の経時変化」や、マーケティングにおける「同一顧客の複数回の購買履歴」なども同様です。
このような「データの背後にグループ分け(階層構造)が存在し、グループ内のデータが互いに相関を持っている状態」を正しく扱うための統計手法が、階層線形モデル(HLM: Hierarchical Linear Modeling)、あるいは線形混合モデル(LMM: Linear Mixed Models)です。分野によってはマルチレベルモデル(Multilevel Models)とも呼ばれますが、本質的な数理構造は同一です。
1. 階層構造とデータ独立性の問題
通常の線形回帰分析(最小二乗法など)では、すべての観測データが互いに独立であることを強い前提(独立同一分布の仮定)としています。階層構造を無視して通常の回帰分析を適用すると、以下のような深刻な問題が生じます。
標準誤差の過小評価と第一種の過誤
同じグループ内のデータが似通っている(正の相関がある)場合、データが持つ「実質的な情報量」は、見かけのサンプルサイズよりも少なくなります。これを無視して分析すると、パラメータの標準誤差が実際よりも小さく見積もられてしまいます。その結果、本来は統計的に有意ではない変数に対して「有意である($p$値が小さすぎる)」と誤って判断してしまうリスク(第一種の過誤)が大幅に増大します。
級内相関係数(ICC: Intraclass Correlation Coefficient)
データにどの程度の階層性(グループによる偏り)が存在するかを測る指標が級内相関係数(ICC)です。ICCは0から1の値をとり、全分散のうち「グループ間のばらつき」が占める割合を示します。ICCが十分に大きい(例えば0.05以上など)場合、階層性を無視した分析は不適切であり、HLM/LMMの導入が強く推奨されます。
2. 固定効果とランダム効果の概念
線形混合モデル(LMM)という名前は、「固定効果(Fixed Effects)」と「ランダム効果(Random Effects)」という2つの異なる効果が”混合(Mixed)”されていることに由来します。この使い分けがモデル構築の要となります。
固定効果(Fixed Effects)
母集団全体に共通して適用される、平均的な影響のことです。「勉強時間が1時間増えると、テストの点数が平均して何点上がるか」といった、私たちが通常知りたい変数間の普遍的な関係性を表します。通常の回帰分析における回帰係数と同じ概念です。
ランダム効果(Random Effects)
観測されたグループ(学校、患者、店舗など)ごとの個別のばらつき(ズレ)を表す効果です。ランダム効果は、そのグループごとの固有の値を直接推定するのではなく、「そのズレが特定の確率分布(通常は平均0の正規分布)から発生している」と仮定し、その分布の「分散(ばらつきの大きさ)」を推定します。これにより、限られたサンプルから未知のグループに対する予測も可能になります。
3. モデルの構造と数式表現
階層線形モデルは、データが属する「レベル」ごとに方程式を立て、それらを組み合わせることで定式化されます。ここでは「生徒(レベル1)」が「学校(レベル2)」に属している2階層モデルを例に解説します。
ランダム切片モデル(Random Intercept Model)
グループごとにベースライン(切片)が異なると仮定する、最も基本的な混合モデルです。学校 $j$ に属する生徒 $i$ の成績 $y_{ij}$ を予測します。
レベル1(生徒レベル)の方程式:
$$
y_{ij} = \beta_{0j} + \beta_{1}x_{ij} + e_{ij}
$$
ここで、$x_{ij}$ は生徒個人の勉強時間、$\beta_{0j}$ は学校 $j$ ごとの切片(平均点)、$e_{ij}$ は個人の誤差です。
レベル2(学校レベル)の方程式:
$$
\beta_{0j} = \gamma_{00} + u_{0j}
$$
ここで、$\gamma_{00}$ は全学校の全体の平均切片(固定効果)、$u_{0j}$ は学校 $j$ 特有のズレ(ランダム効果)です。
これらを代入して1つの式に統合すると、以下の統合モデルが得られます。
$$
y_{ij} = (\gamma_{00} + \beta_{1}x_{ij}) + u_{0j} + e_{ij}
$$
前半の $(\gamma_{00} + \beta_{1}x_{ij})$ が固定効果部分、後半の $u_{0j} + e_{ij}$ がランダム効果と誤差の複合部分です。
ランダム切片・傾きモデル(Random Intercept and Slope Model)
切片だけでなく、「勉強時間が成績に与える影響(傾き)」も学校ごとに異なると仮定する、より柔軟なモデルです。レベル2において、傾き $\beta_{1j}$ に対してもランダム効果 $u_{1j}$ を導入します。
$$
y_{ij} = (\gamma_{00} + \gamma_{10}x_{ij}) + (u_{0j} + u_{1j}x_{ij}) + e_{ij}
$$
このモデルでは、ある学校では勉強の効果が非常に高く(傾きが急)、別の学校ではあまり効果がない(傾きが緩やか)といった、グループ間における変数の効果の異質性を捉えることができます。
4. パラメータの推定とモデル評価
混合モデルでは、固定効果の係数だけでなく、ランダム効果の分散成分(グループ間のばらつきの大きさ)も同時に推定する必要があります。この推定には、主に以下の2つの手法が用いられます。
ML(最尤法)と REML(制限付き最尤法)
通常の最尤法(ML: Maximum Likelihood)は、固定効果の推定に自由度を消費してしまうため、ランダム効果の分散をわずかに過小評価する(下方にバイアスがかかる)という欠点があります。
これを補正したのが制限付き最尤法(REML: Restricted Maximum Likelihood)です。REMLは、固定効果の影響を数学的に取り除いた上で分散成分を推定するため、より不偏な分散の推定値が得られます。一般的に、最終的なモデルのパラメータ推定にはREMLが推奨されます。
モデルの比較と評価指標
「ランダム切片だけで十分か、ランダム傾きも追加すべきか」といったモデル構造の比較には、情報量基準(AICやBIC)や尤度比検定(Likelihood Ratio Test)が用いられます。ただし、固定効果の変数の組み合わせが異なるモデル同士を尤度比検定で比較する場合は、REMLではなくMLで推定された尤度を使用しなければならないという厳密なルールがある点に注意が必要です。
5. 縮小推定(部分プーリング)の強力なメリット
HLM/LMMを採用する最大の統計的メリットの一つが、「縮小推定(Shrinkage estimation)」または「部分プーリング(Partial pooling)」と呼ばれる現象です。
例えば、ある学校の生徒データが極端に少なく、たまたまその数人の成績が非常に高かったとします。もしグループごとに完全に独立して平均を計算(完全非プーリング)すると、その学校の実力は過大評価されてしまいます。逆に、学校ごとの違いを一切無視して全体平均を使う(完全プーリング)と、学校の個性が完全に失われます。
LMMでは、ランダム効果が「全体の分布(正規分布)から生じている」という制約を利用します。そのため、データ数が少ない、あるいは分散が極端に大きいグループの推定値は、自動的に「全体の平均値(固定効果)」の方向に引き寄せられます(シュリンケージ)。これにより、ノイズによる極端な外れ値の推定を防ぎ、全体として最も予測誤差が小さくなるような堅牢(ロバスト)な推定が可能になるのです。
まとめ
階層線形モデル(HLM / LMM)は、データに内在する構造(グループ、クラスター、反復測定など)を敵ではなく「貴重な情報源」として活用するための高度な手法です。
- データの独立性の仮定違反による「見せかけの有意差」を防ぐことができる。
- 固定効果で全体的な傾向を、ランダム効果でグループごとの個性を同時にモデリングできる。
- 縮小推定により、サンプルサイズが不均一なグループ間でも安定した予測が可能になる。
ビジネスにおける店舗別・地域別のマーケティング効果測定や、人事データにおける部署・チーム別のパフォーマンス評価など、現実のデータはほとんどが何らかの階層構造を持っています。この構造を正しく数式に落とし込むHLM/LMMは、データサイエンティストにとって不可欠な武器となります。
