2026年 3月 13日 金曜日

Top 5 This Week

Related Posts

8.3 一般化線形混合モデル(GLMM)


データサイエンスの実務において、私たちが直面するデータは常に「綺麗な正規分布」に従うとは限りません。第7章で学んだように、コンバージョン(成功/失敗)のような二値データや、来店客数のようなカウントデータに対しては、一般化線形モデル(GLM)を使用する必要があります。しかし、それらのデータが同時に「階層構造(グループや反復測定)」を持っていた場合、どうすればよいでしょうか。

例えば、「全国の複数店舗で実施した、顧客ごとのキャンペーン反応の有無(Yes/No)」や、「複数の農場で育てた植物の、個体ごとの種子の数(カウント)」といったデータです。これらのデータは、正規分布を仮定できない(非正規性)と同時に、同じ店舗の顧客や同じ農場の植物は互いに似通っている(非独立性)という2つの厄介な特徴を併せ持っています。

この「非正規性」と「非独立性(階層構造)」という2つの問題を同時に解決する強力なモデリング手法が、一般化線形混合モデル(GLMM: Generalized Linear Mixed Models)です。GLMMは、第7章のGLMと前節(8.2)のLMM(線形混合モデル)の概念を高い次元で統合した、現代の統計モデリングにおける一つの到達点とも言える手法です。

1. GLMMの数理的構造と定式化

GLMMは、GLMの線形予測子の中に、階層構造に由来する「ランダム効果」を組み込んだ構造をしています。グループ $j$ に属する観測対象 $i$ の目的変数を $y_{ij}$ としたとき、モデルは以下のように定式化されます。

条件付き期待値とリンク関数

GLMMでは、ランダム効果 $\mathbf{u}_j$ が与えられたという「条件付き」での目的変数の期待値 $\mu_{ij} = E[y_{ij} | \mathbf{u}_j]$ を考えます。この期待値を、リンク関数 $g(\cdot)$ を用いて線形予測子と結びつけます。

$$
g(\mu_{ij}) = \mathbf{x}_{ij}^T \boldsymbol{\beta} + \mathbf{z}_{ij}^T \mathbf{u}_j
$$

ここで各項の役割は以下の通りです。

  • $g(\cdot)$:リンク関数(ロジット関数、対数関数など)
  • $\mathbf{x}_{ij}$:固定効果に対する説明変数のベクトル
  • $\boldsymbol{\beta}$:母集団全体に共通する固定効果のパラメータベクトル
  • $\mathbf{z}_{ij}$:ランダム効果に対する説明変数のベクトル(通常は切片のみ、または特定の傾き)
  • $\mathbf{u}_j$:グループ $j$ に固有のランダム効果(ズレ)のベクトル

ランダム効果の分布仮定

LMMと同様に、各グループのランダム効果 $\mathbf{u}_j$ は、未知の固定値ではなく、平均 $\mathbf{0}$、分散共分散行列 $\boldsymbol{\Sigma}$ を持つ多変量正規分布から確率的に発生したものと仮定します。

$$
\mathbf{u}_j \sim N(\mathbf{0}, \boldsymbol{\Sigma})
$$

この仮定により、「全体の傾向(固定効果 $\boldsymbol{\beta}$)」を維持しつつ、「グループごとの個性(ランダム効果 $\mathbf{u}_j$)」を縮小推定(シュリンケージ)することが可能になります。

2. 代表的なGLMMの適用例

GLMMは、目的変数の確率分布とリンク関数の組み合わせによって、様々なデータタイプに対応できます。

ロジスティック混合モデル(二値・二項データ)

目的変数が成功/失敗などの二値データの場合、誤差構造に二項分布、リンク関数にロジット関数を使用します。例えば、「複数の病院に所属する患者の手術成功率」をモデリングする場合、病院ごとの設備やスタッフの質の差を「病院レベルのランダム切片」として吸収し、特定の治療法(固定効果)の真の有効性を評価します。

ポアソン混合モデル(カウントデータ)と過分散の吸収

目的変数が非負の整数(来店者数や事故件数など)の場合、誤差構造にポアソン分布、リンク関数に対数関数を使用します。

通常のポアソン回帰では「平均と分散が等しい」という強い仮定がありますが、現実のデータでは分散が平均を大きく上回る「過分散(Overdispersion)」が頻繁に発生します。GLMMにおいて、観測値一つ一つに対してランダム効果を割り当てる(観測レベルのランダム効果:Observation-level Random Effect, OLRE)ことで、モデルが捉えきれない未知の個体差による過分散をうまく吸収し、負の二項回帰モデルと似た効果を得ることができます。

3. 解釈における最大の罠:SSとPAの違い

GLMMを実務で使用する際、線形混合モデル(LMM)の時と同じ感覚でパラメータ(係数)を解釈すると、大きな間違いを犯す危険性があります。それは、非線形なリンク関数(特にロジット関数)を用いた場合、「グループごとの条件付き効果」と「母集団全体での平均的な効果」が一致しなくなるという数学的な性質があるためです。

Subject-Specific (SS) 効果

GLMMで推定される固定効果 $\boldsymbol{\beta}$ は、「ランダム効果(グループの特性)を一定に保った場合」の効果です。つまり、「ある特定の病院内において、治療法Aと治療法Bを比較したときの対数オッズ比」を意味します。これをSubject-Specific(条件付き)効果と呼びます。

Population-Average (PA) 効果

一方、私たちがビジネスの意思決定で知りたいのは、「国全体のすべての病院をひっくるめて平均したとき、治療法Aは治療法Bよりもどれくらい優れているか」という、周辺化された平均効果(Population-Average効果、またはMarginal効果)である場合が多々あります。

LMM(恒等リンク関数=線形)の場合、SS効果とPA効果は完全に一致します。しかし、ロジスティック混合モデルでは、ランダム効果の分散(グループ間のばらつき)が大きいほど、推定されるSS効果(GLMMの出力係数)は、PA効果(単純なロジスティック回帰の係数)よりも絶対値が大きくなるという現象が起きます。分析の目的が「個別のグループ内でのメカニズムの理解」なのか、「集団全体の平均的な予測」なのかによって、モデルの使い分けや係数の解釈を慎重に行う必要があります。

4. パラメータ推定の難しさと近似手法

GLMMの最大のハードルは、パラメータを推定するための計算(尤度関数の最大化)が極めて困難である点にあります。LMMとは異なり、GLMMの尤度関数はランダム効果に関する積分を含んでおり、正規分布以外の誤差構造(二項分布やポアソン分布)と非線形なリンク関数が組み合わさることで、この積分を解析的に(手計算で)解くことができなくなります。

そのため、コンピュータによる高度な近似計算が不可欠となります。推定手法には一長一短があり、データの性質に合わせて選択する必要があります。

PQL / MQL(罰則付き擬似尤度法)

非線形な関数をテイラー展開によって線形近似し、擬似的にLMMの枠組みに落とし込んで反復計算を行う手法です。計算が非常に高速である反面、二値データで1グループあたりのサンプルサイズが小さい場合などには、推定値に強いバイアス(過小評価)がかかることが知られており、現在では最終的な結果報告としての使用は推奨されない傾向にあります。

ラプラス近似(Laplace Approximation)

積分関数を、その最大値の周辺で正規分布の形に近似して積分を評価する手法です。PQLよりも精度が高く、計算速度とのバランスも良いため、現在多くの統計ソフトウェアでデフォルトの推定アルゴリズムとして採用されています。

ガウス・エルミート求積法(Gauss-Hermite Quadrature)

積分を離散的な点(分点:Nodes)での値の重み付き和として近似する数値積分法です。分点の数を増やすほど真の尤度に近づくため、最も高精度な推定が可能ですが、ランダム効果の次元が増えると計算量が爆発的に増加(次元の呪い)するという欠点があります。単一のランダム切片モデルなどには非常に有効です。

MCMC(マルコフ連鎖モンテカルロ法)

近年、頻度論的な近似アルゴリズムが収束しない(計算が途中でストップしてしまう)ような複雑な階層構造を持つGLMMに対して、ベイズ統計学のアプローチであるMCMC法を用いるケースが増えています。事後分布から乱数を発生させることで積分を回避し、パラメータの不確実性を確率分布として直接評価できる強力な代替手段です。

まとめ

一般化線形混合モデル(GLMM)は、データに潜む「確率分布の違い」と「階層構造(相関)」の双方を同時に処理できる、統計モデリングの強力なマスターキーです。

  • ポアソン分布や二項分布などの非正規データに、ランダム効果を導入できる。
  • 過分散の問題を、観測レベルのランダム効果(OLRE)等によって適切に処理できる。
  • 解釈の際、SS(条件付き効果)とPA(周辺平均効果)の違いに注意する必要がある。
  • 推定計算が複雑なため、近似アルゴリズムの特性(ラプラス近似や求積法)を理解しておくことが重要。

複雑な現実のデータを無理に単純化して分析するのではなく、データが生成された構造そのものを数式化して受け入れるGLMMの考え方は、現代データサイエンティストが中級から上級へとステップアップするための重要な関門となります。

Popular Articles