2026年 4月 12日 日曜日

Top 5 This Week

Related Posts

10.2 Cox比例ハザードモデル

- 本サイト運営者のサービスの紹介 -


生存時間分析において、ある事象(死亡、機器の故障、サービスの解約など)が発生するまでの時間に対して、複数の要因(共変量)がどのように影響を与えているかを定量的に評価する標準的な手法が、Cox比例ハザードモデル(Cox Proportional Hazards Model)です。1972年にDavid Coxによって提唱されたこのモデルは、生存時間分析における多変量解析の基盤となっています。

前項(10.1)で扱ったカプラン・マイヤー法は、生存関数をノンパラメトリックに推定する手法であり、単一のカテゴリ変数(例:投薬群とプラセボ群)による生存曲線の比較には適していますが、年齢や血圧などの連続変数の影響や、複数の変数の交絡を同時に調整・評価することには限界があります。Cox比例ハザードモデルは、これら複数の共変量をモデルに組み込むことを可能にします。

1. モデルの数理構造:セミパラメトリックなアプローチ

Cox比例ハザードモデルは、ある時点 $t$ におけるイベント発生の瞬間的なリスクを表す「ハザード関数 $h(t)$」をモデル化します。個体 $i$ の共変量ベクトルを $X_i = (X_{i1}, X_{i2}, \dots, X_{ip})$ としたとき、モデルは以下のように定式化されます。

$$
h(t|X_i) = h_0(t) \exp(\beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_p X_{ip})
$$

この式の構造は、以下の2つの要素から成り立っています。

  • ベースラインハザード関数 $h_0(t)$: すべての共変量が 0 の場合($X = 0$)の基礎的なハザードを表します。Coxモデルにおける最大の特長は、この $h_0(t)$ が特定の確率分布(例えば指数分布やワイブル分布など)に従うという仮定を一切置かない(ノンパラメトリックである)点にあります。
  • 指数関数部分 $\exp(\beta X)$: 共変量 $X$ の線形結合を指数変換したもので、ベースラインハザードに対する相対的なリスクの倍率を表します。回帰係数 $\beta$ はパラメータとして推定されるため、この部分はパラメトリックです。

このように、ノンパラメトリックな要素とパラメトリックな要素を組み合わせているため、Coxモデルは「セミパラメトリックモデル」に分類されます。ベースラインハザードの形状を誤って指定するリスクを回避しつつ、共変量の効果を定量的に推定できる点が、この手法が広く普及している理由です。

2. 関連手法との比較

Cox比例ハザードモデルの位置づけを明確にするため、生存時間分析において頻出する他の分析手法との比較を以下の表にまとめます。特に「時間と打ち切りの考慮」と「ベースラインハザードの仮定」が手法選択の決定基準となります。

手法 時間と打ち切りの考慮 共変量の扱い(多変量解析) ベースラインハザードの分布仮定 主な用途と特徴
ロジスティック回帰 考慮しない(事象の有無のみ) 可能 観察期間が固定されており、打ち切りデータが存在しない場合の単純な事象発生確率の予測。
カプラン・マイヤー法 考慮する 不可(単一のカテゴリ変数による層別化のみ) 仮定しない(ノンパラメトリック) 生存曲線の記述的評価。複数の連続変数の調整には不適。
Cox比例ハザードモデル 考慮する 可能 仮定しない(セミパラメトリック) 複数の共変量がハザードに与える影響の評価。分布を仮定しないため適用範囲が広い。
パラメトリック生存時間モデル 考慮する 可能 仮定する(ワイブル分布、対数正規分布など) ハザードの形状に関する理論的背景がある場合や、観測期間外の生存関数の外挿(将来予測)が必要な場合。

3. パラメータの推定:部分尤度(Partial Likelihood)

通常の最尤推定では、確率密度関数を特定する必要がありますが、Coxモデルでは $h_0(t)$ が未知であるため通常の尤度関数を計算できません。そこで、Coxは「部分尤度(Partial Likelihood)」という概念を導入しました。

イベントが発生した各時点 $t_j$ において、「その時点で生存しており、イベントを経験するリスクに晒されている個体の集合(リスク集合 $R(t_j)$)」を考えます。ある時点 $t_j$ において、リスク集合の中から特定の個体 $i$ にイベントが発生する条件付き確率は、以下のようにベースラインハザード $h_0(t)$ が相殺されるため、未知の関数に依存せずに計算できます。

$$
\frac{h(t_j|X_i)}{\sum_{k \in R(t_j)} h(t_j|X_k)} = \frac{h_0(t_j) \exp(\beta^T X_i)}{\sum_{k \in R(t_j)} h_0(t_j) \exp(\beta^T X_k)} = \frac{\exp(\beta^T X_i)}{\sum_{k \in R(t_j)} \exp(\beta^T X_k)}
$$

すべてのイベント発生時点についてこの条件付き確率の積をとったものが部分尤度関数 $L(\beta)$ であり、これを最大化する $\beta$ を求めることでパラメータの推定を行います。

4. ハザード比(Hazard Ratio: HR)の解釈と具体例

推定された回帰係数 $\beta$ を指数変換した $\exp(\beta)$ を「ハザード比(HR)」と呼びます。これは、ある共変量が1単位増加したときに、イベント発生のハザード(瞬間的なリスク)が何倍になるかを示します。

  • HR > 1: その変数の増加はイベント発生を促進する(生存時間を短くする)。
  • HR < 1: その変数の増加はイベント発生を抑制する(生存時間を長くする)。
  • HR = 1: その変数はイベント発生リスクに影響を与えない。

事例:サブスクリプションサービスの解約(チャーン)予測

BtoCのソフトウェアサービスにおける顧客の「解約」をイベントとし、契約から解約までの期間を生存時間とした分析事例を考えます。以下のような変数を用いてCox比例ハザードモデルを構築し、以下のハザード比が得られたとします。

  • プレミアムプラン(1=加入, 0=未加入)/ HR = 0.65: プレミアムプラン加入者は、未加入者に比べて解約のハザードが0.65倍(リスクが35%減少)になります。これは解約抑制に統計的に有意な効果があることを示唆しています。
  • 直近1ヶ月のログイン回数(連続変数)/ HR = 0.95: ログイン回数が1回増えるごとに、解約のハザードは0.95倍(5%低下)になります。10回多ければ $0.95^{10} \approx 0.60$ 倍となります。
  • カスタマーサポートへの問い合わせ回数(連続変数)/ HR = 1.15: 問い合わせが1回増えるごとに、解約のハザードが1.15倍(15%増加)になります。これは、製品に対する不満やトラブルが解約リスクを直接的に高めている状況を定量化しています。

このように、Cox比例ハザードモデルを用いることで、複数の要因が独立してイベント発生リスクにどの程度寄与しているかを、他の変数の影響を固定・調整した上で客観的に評価することが可能です。

5. 比例ハザード性の仮定(Proportional Hazards Assumption)

Coxモデルを使用する上で最も重要な前提条件が「比例ハザード性の仮定」です。これは、「共変量によるハザードの比(ハザード比)は、時間が経過しても常に一定である」という仮定です。

例えば、前述の「プレミアムプラン」の解約抑制効果(HR=0.65)が、契約直後の1ヶ月目でも、契約から3年経過した時点でも変わらず0.65であることをモデルは前提としています。もし、「契約直後はプレミアムプランの効果が高いが、長期間経過すると通常プランと解約リスクが変わらなくなる」という時間依存的な効果が存在する場合、比例ハザード性の仮定は満たされません。

この仮定が違反している状態で推定されたハザード比は、観察期間全体の平均的な効果を無理に算出したものに過ぎず、結果の解釈を誤る原因となります。したがって、Coxモデルを適用した後は、必ずSchoenfeld残差(シェーンフェルド残差)の検定や、対数マイナス対数生存曲線(log-log plot)の平行性の確認などを行い、仮定が成立しているかを検証するプロセスが不可欠です。仮定が満たされない場合の対処法(時間依存性共変量の組み込みなど)については、次項「10.3 比例ハザード性の検証と拡張」にて詳述します。

まとめ

Cox比例ハザードモデルは、ベースラインの生存分布を仮定せずに複数の要因によるリスク評価を行える柔軟性と堅牢性から、生存時間分析における中核的な手法です。

  • 部分尤度を用いることで、ベースラインハザード関数の特定を回避しつつ、共変量の効果(回帰係数)を推定できる。
  • 推定された回帰係数を指数変換したハザード比(HR)によって、各要因の影響力を定量的に解釈できる。
  • モデルの妥当性を担保するためには、「比例ハザード性の仮定」が満たされていることの検証が必須である。

Popular Articles