生存分析とは何か
生存分析は、ある事象(イベント)が発生するまでの時間を対象とする統計手法の総称です。「何人がイベントを経験したか」ではなく、「いつイベントが発生するか」を問いの中心に置くことが、この手法の本質的な特徴です。時間に関する情報が分析の核心にあるため、従来の線形回帰やロジスティック回帰とは異なる定式化が必要となります。
分析対象となるデータは時間-事象データと呼ばれます。各観測単位について、観察開始時点(オリジン)から事象発生または観察終了までの時間と、その時点でイベントが実際に発生したかどうかを記録します。形式的には、$i$番目の観測について、観察時間$t_i \geq 0$とイベント発生インジケータ$\delta_i \in \{0, 1\}$の組$(t_i, \delta_i)$として表されます。$\delta_i = 1$はイベント発生を、$\delta_i = 0$は観察終了時にイベントが未発生であったことを示します。
分析対象のイベントは、死亡、機器の故障、疾患の発症、契約解約など、単一かつ明確に定義されたものである必要があります。イベントが複数の意味に解釈されたり、二重に定義されたりすることは推定の一貫性を損ないます。また、時間変数は非負連続変数であることが基本的な仮定であり、離散時間の場合は別途の定式化が必要となります。
| 比較軸 | 線形回帰 | ロジスティック回帰 | 生存分析 |
|---|---|---|---|
| 従属変数の型 | 連続量 | 二値(0/1) | 非負連続変数(生存時間) |
| 打ち切りデータへの対応 | 不可(欠損として除外する場合、バイアスが生じる) | 不可(時間情報を利用しない) | 可(尤度関数による分離で対処) |
| 主な問いの形式 | 応答変数の期待値はどの程度か | イベント発生確率はどの程度か | イベントはいつ発生するか |
| 代表的手法 | 最小二乗推定 | 最尤推定(ロジット・プロビット) | Kaplan-Meier法、Cox比例ハザードモデル、パラメトリックモデル |
時間-事象データの特殊性:打ち切りの問題
時間-事象データが通常の回帰データと根本的に異なる点は、打ち切り(censoring)の存在です。右打ち切りは最も頻繁に遭遇する形式であり、観察終了時点においてイベントがまだ発生していない状態を指します。臨床試験の追跡期間終了時点で生存している患者、あるいは試験途中で別の理由で追跡不能となった患者のデータは、右打ち切りとして扱われます。
左打ち切りは、オリジンより前にすでにイベントが発生していた可能性がある場合に生じます。研究開始時点において特定の疾患を既往している対象者が、その発症時点をさかのぼって特定できない場合などが典型例です。
打ち切り観測は、イベントが発生しなかったことを示す情報を持ちます。この情報を無視したり、イベント未発生を欠損値として除外したりすることは、推定に系統的なバイアスをもたらします。線形回帰は従属変数が連続値であることを前提とし、打ち切りの概念を持ちません。二項ロジスティック回帰はイベントの発生・非発生を従属変数とするため時間情報を利用できず、打ち切りデータを適切に扱う枠組みがありません。
生存分析では、この問題を尤度関数の分離によって対処します。イベントが発生した観測の尤度寄与は密度関数$f(t)$で表され、打ち切り観測の寄与は「少なくとも時刻$t$まで生存した」という情報を表す生存関数$S(t)$で表されます。これにより、打ち切りデータからも推定に貢献する情報を適切に取り出すことが可能となります。
無情報打ち切りは生存分析の中核的な仮定の一つです。これは、打ち切りが発生する確率がその後のイベント発生リスクと独立であることを意味します。この仮定が成立しない情報的打ち切りの状況では、通常の推定量は一致性を失います。また、打ち切り割合が高すぎる場合は推定精度が著しく低下するため、データ収集の設計段階でその割合を抑制する工夫が必要です。
(Fig1. 6名分の追跡タイムラインにおけるイベント発生(×印)と右打ち切り(○印)の視覚化)
生存関数とハザード関数:概念的入門
生存分析の中核を構成するのが生存関数$S(t)$とハザード関数$h(t)$です。これらは互いに変換可能な関係にあり、生存時間分布を異なる視点から記述します。
生存関数は、ある時刻$t$までイベントが発生しない確率として定義されます。
$$S(t) = P(T > t)$$
ここで$T$は事象発生時刻を表す確率変数です。$S(t)$は時間とともに単調非増加であり、$S(0) = 1$(観察開始時点ではイベント未発生)および$S(\infty) = 0$(十分な時間が経過すればすべての対象においてイベントが発生する)という境界条件を満たします。
ハザード関数$h(t)$は、時刻$t$まで生存した個体がその後の微小時間$\Delta t$以内にイベントを経験する条件付き瞬間リスク率を表します。「現時点まで生存しているという条件のもとで、今この瞬間にイベントが発生するリスクの大きさ」を表す概念です。ハザード関数は非負の値を取り、その形状(時間とともに増加するか、減少するか、一定か)がパラメトリックモデルの選択根拠となります。
累積ハザード関数$H(t)$は$h(t)$を時刻$0$から$t$まで積分したものであり、生存関数との変換式において重要な役割を果たします。$S(t)$と$h(t)$の間には変換関係が存在し、一方から他方を導出することが可能ですが、その数学的な詳細は後続記事(03_03)で体系的に扱います。本セクションは概念的導入に留まり、各関数の形式的な定義・関係式の導出・推定理論の展開は後続に委ねます。
(Fig2. 一定ハザード(指数分布)、増加ハザード(ワイブル分布、shape>1)、減少ハザード(ワイブル分布、shape<1)に対応する3つの生存関数の形状)
解析アプローチの分類
生存分析の手法は、生存時間の分布に関する仮定の強さによって3つのアプローチに大別されます。各アプローチは柔軟性と推定効率がトレードオフの関係にあり、仮定が弱いほど柔軟性は高いが効率は低下する傾向があります。
ノンパラメトリック推定は、生存時間の分布に特定の関数形を仮定しません。代表的手法はKaplan-Meier積限法(Kaplan-Meier estimator)とNelson-Aalen推定量であり、打ち切りデータを含む標本から生存関数または累積ハザード関数を経験的に推定します。分布仮定がないため標本の分布に対して柔軟に適応しますが、観察範囲外への外挿は統計的根拠を持たず実施できません。
半パラメトリックモデルは、共変量効果はパラメトリックに推定しつつ、基準ハザード関数はノンパラメトリックに扱うアプローチです。Cox比例ハザードモデルがその代表例であり、ハザードに乗法的に作用する共変量の回帰係数を、基準ハザードの具体的な関数形を特定することなく推定できます。共変量効果の推定を主目的とする研究で広く採用されています。
パラメトリックモデルは、生存時間の分布を完全に特定します。指数分布(一定ハザード)、ワイブル分布(単調増加または単調減少ハザード)、対数正規分布などがよく用いられます。分布の関数形を正しく指定できた場合に推定効率は最も高くなりますが、分布の誤指定(mis-specification)が生じると推定値は一致性を失うリスクがあります。
アプローチの選択は、標本サイズ、研究目的、生存時間分布に関する事前知識の量に依存します。サンプルサイズが小さく分布に強い先験的根拠がある場合はパラメトリック、共変量効果の推定が主目的であれば半パラメトリック、記述的分析が目的であればノンパラメトリックが基本的な指針となります。
生存分析の適用領域
(Fig3. 医学・信頼性工学・マーケティング各領域における代表的イベント種別と典型的な観察期間スケールの比較)
医学統計・臨床試験では、無作為化比較試験において2つ以上の治療群の生存期間を比較することが主要な応用の一つです。死亡、再発、入院など臨床的に意味のあるイベントを終点として設定し、Kaplan-Meier曲線による群間比較やCox比例ハザードモデルによる治療効果の推定が標準的に用いられます。
信頼性工学では、機械部品・電子機器の寿命推定、故障率の解析、予防保全計画の立案に生存分析が適用されます。この分野ではイベントを「故障」と定義し、観察打ち切りは検査打ち切り(部品が試験期間内に故障しなかった場合)として扱います。
マーケティング分析においては、顧客チャーン(解約)分析と顧客生涯価値の推定に生存分析の枠組みが有効です。契約開始から解約までの時間をモデル化し、解約ハザードに影響する顧客属性や行動変数を推定します。
疫学研究では、コホート研究において疾患発症率の推定や曝露リスクの定量化に生存分析が活用されます。曝露群と非曝露群の生存曲線の比較や、ハザード比による効果量の推定が中心的な分析となります。なお、ハザード比は関連の強さを表す指標であり、曝露とイベントの間に因果関係があるかどうかは研究デザインの評価によって別途判断する必要があります。
各適用領域では、イベントの定義、打ち切りの性質、観察時間スケールが大きく異なります。医学では数年単位の追跡、信頼性工学では時間・サイクル数、マーケティングでは月単位の契約期間など、スケールの違いが手法の選択と推定精度に影響します。統計手法の適用には領域の文脈理解が不可欠です。
医学統計への具体的な応用として、治療Aと治療Bに無作為割付された患者集団を対象とする臨床試験を例示します。各患者について、無作為化時点を観察開始とし、死亡または追跡終了まで追跡します。生存曲線の群間差異を評価することで治療効果の推定が可能になります。この設定では、有害事象による脱落や転院など、試験に関連した理由で打ち切りが生じる情報的打ち切りのリスクがあります。無情報打ち切り仮定の妥当性は、常に医学的文脈から検討される必要があります。
生存分析の歴史的発展
生存分析の実務的起源は19世紀の保険数理的寿命表にさかのぼります。死亡率の年齢別分布を集計した寿命表は、生命保険の保険料計算や人口統計の基礎として活用され、集団の生存確率を記述する実務的な枠組みを提供しました。
1958年、KaplanとMeierはJournal of the American Statistical Associationに積限法を発表しました。この推定法は、打ち切りデータを含む標本から生存関数を経験的に推定するものであり、分布仮定を必要としないことから、現在も生存分析の基本的な記述ツールとして広く用いられています。
1972年のCoxによる比例ハザードモデルの提案は、生存分析の適用範囲を根本的に拡大しました。基準ハザード関数をノンパラメトリックに扱いながら共変量効果をパラメトリックに推定する半パラメトリック推定の枠組みは、医学・疫学・社会科学において標準的な解析ツールとなりました。
1980年代から1990年代にかけては、カウントプロセス理論に基づく厳密な数学的基礎づけが進むとともに、競合リスクモデルや、個体間の不均一性を表現するフレイルティモデルが発展しました。これにより、より複雑な生存データ構造を扱うための方法論が整備されました。
2010年代以降は、機械学習との融合が進展しています。Random Survival ForestやDeepHitなど、ノンパラメトリックな柔軟性と高次元共変量への対応を兼ね備えた手法が開発され、従来の統計的手法とデータ駆動型アプローチの境界が問い直されています。これらの手法はしばしば予測精度に優れますが、推定結果の解釈可能性と仮定の透明性については従来手法と異なる課題を持ちます。

