ノンパラメトリック生存曲線推定の必要性
生存時間データは通常の連続変数データとは異なる複数の特殊性を持ちます。観測値は非負に制約され、分布は右に歪み、観測期間の終了・被験者の転居・治療変更などの理由でイベントが観測されない打ち切り観測が混在します。経験的累積分布関数は完全観測データを前提とするため、打ち切りを含むデータにそのまま適用すると生存確率の推定が偏ります。打ち切り個体の真のイベント時刻が未観測である以上、通常の順位統計やモーメント推定量は適切な一致性を持ちません。
各個体$i$について、観測時刻$t_i$とイベント発生の有無を示す指示変数$\delta_i \in \{0,1\}$を定義します。$\delta_i = 1$はイベント発生、$\delta_i = 0$は打ち切りを意味します。生存関数は$S(t) = P(T > t)$と定義され(前記事参照)、特定の時刻$t_j$におけるリスク集合$R(t_j)$は時刻$t_j$直前まで追跡可能な個体の集合として定義されます。
$$R(t_j) = \{i : t_i \geq t_j\}$$
パラメトリックモデルは指数分布やWeibull分布などの特定の分布族を仮定しますが、その仮定が誤っている場合は系統的なバイアスが生じます。Kaplan-Meier推定量は1958年に発表された積限法にもとづくノンパラメトリック推定量であり、分布族に関する仮定を一切置かずに打ち切りデータから生存関数を推定します。この特性が、分布形状が未知な探索的生存解析においてKaplan-Meier推定量を標準的な出発点とする根拠です。
積限法(Product-Limit法)の導出
観測された失敗時刻を昇順に並べた順序統計量を$t_{(1)} < t_{(2)} < \cdots < t_{(k)}$と定義します。時刻$t_{(j)}$において$d_j$件のイベントが発生し、直前のリスク集合サイズを$n_j = |R(t_{(j)})|$とします。時刻$t_{(j)}$での条件付き生存確率は、条件付き死亡確率$d_j/n_j$を1から引くことで得られます。
$$P(T > t_{(j)} \mid T \geq t_{(j)}) = 1 – \frac{d_j}{n_j}$$
条件付き確率の連鎖則(乗法則)により、時刻$t$までの生存確率はこれらの条件付き生存確率の乗積として表現されます。Kaplan-Meier推定量の積限公式は以下の通りです。
$$\hat{S}_{KM}(t) = \prod_{t_{(j)} \leq t} \left(1 – \frac{d_j}{n_j}\right)$$
イベントが発生していない時間区間では確率質量の再配置は行われず、乗積に新たな項が加わらないため推定値は一定に保たれます。各失敗時刻においてのみ曲線が下方に跳ぶステップ関数の形状はこの性質から導かれます。
数値例として$n = 10$の場合を示します。初期リスク集合は10名です。時刻$t_{(1)} = 3$でイベント1件($d_1 = 1$、$n_1 = 10$)が生じると$\hat{S}(3) = 1 – 1/10 = 0.900$となります。次に時刻$t_{(2)} = 5$の直前に打ち切り1件が生じて$n_2 = 8$となり、イベント1件($d_2 = 1$)が発生すると$\hat{S}(5) = 0.900 \times (1 – 1/8) = 0.788$となります。さらに時刻$t_{(3)} = 8$でリスク集合が6名($n_3 = 6$)、イベント2件($d_3 = 2$)が発生すると$\hat{S}(8) = 0.788 \times (1 – 2/6) = 0.525$となります。各乗算項が失敗時刻での条件付き生存確率に対応しています。
(Fig1. KM推定量の段階的構築:各失敗時刻での$n_j$・$d_j$と生存確率の乗積更新、打ち切り観測(tick mark)の位置)
打ち切りデータの取り扱い
時刻$t_{(j)}$において$d_j$件のイベントと$c_j$件の打ち切りが発生した後、次の時刻のリスク集合サイズは以下の更新規則に従います。
$$n_{j+1} = n_j – d_j – c_j$$
打ち切りが生じた個体はその時刻以降の追跡が不可能であり、以降のリスク集合から除外されます。打ち切り観測は尤度に$S(c_i)$の形で寄与し、打ち切り時刻までの生存確率のみが推定に利用されます。これにより、完全観測個体の情報のみを用いる方法と比較して情報損失を最小化しています。
同一時刻にイベントと打ち切りが発生する場合(タイ)、標準的な処理慣習ではイベントをその時刻のリスク集合$n_j$に含めて先に処理し、打ち切りをその後に発生したものとして扱います。すなわち打ち切り個体はリスク集合$n_j$に含まれますが、次の時刻のリスク集合からは除外されます。Kaplan-Meier曲線上では打ち切り観測の発生時刻に短い縦線が描画され、打ち切りの分布を視覚的に確認できます。
Kaplan-Meier推定量が一致推定量となるためには以下の仮定が必要です。無情報打ち切り仮定として、打ち切り時刻$C_i$とイベント時刻$T_i$が統計的に独立であることが要求されます。独立打ち切り仮定として、打ち切りのメカニズムが将来のイベントリスクと無関連であることが要求されます。
これらの仮定が成立しない情報打ち切りが存在する場合、推定値にバイアスが生じます。例として副作用により試験を中途脱落した被験者が対照群よりもイベントリスクが高い場合、Kaplan-Meier推定量は生存確率を過大評価する方向にバイアスします。また、打ち切り割合が高い場合はリスク集合サイズが急速に縮小し、推定精度が低下します。
信頼区間の構成:Greenwood公式
Kaplan-Meier推定量の点別分散はGreenwood公式によって推定されます。デルタ法を条件付き生存確率の対数和に適用することで以下の分散推定式が導出されます。
$$\widehat{\mathrm{Var}}[\hat{S}_{KM}(t)] = [\hat{S}_{KM}(t)]^2 \sum_{t_{(j)} \leq t} \frac{d_j}{n_j(n_j – d_j)}$$
点別信頼区間は特定の時刻$t$における$S(t)$の区間推定であり、同時信頼帯は全時刻にわたる曲線全体をカバーするものです。両者は異なる統計的意味を持ちます。以下では点別信頼区間の各構成方法を示します。
線形変換による95%信頼区間は以下の通りです。
$$\hat{S}_{KM}(t) \pm 1.96\sqrt{\widehat{\mathrm{Var}}[\hat{S}_{KM}(t)]}$$
この区間は小標本・曲線末端では$[0,1]$の範囲外の値をとることがあり、その場合は統計的に不適切です。
log変換を用いた信頼区間はデルタ法を$\log(\hat{S}_{KM}(t))$に適用したものです。変換後の漸近分散は$\widehat{\mathrm{Var}}[\hat{S}_{KM}(t)]/[\hat{S}_{KM}(t)]^2$であり、95%信頼区間は以下の逆変換で得られます。
$$\exp\!\left[\log(\hat{S}_{KM}(t)) \pm 1.96\sqrt{\frac{\widehat{\mathrm{Var}}[\hat{S}_{KM}(t)]}{[\hat{S}_{KM}(t)]^2}}\right]$$
log-log変換による信頼区間は$\hat\theta = \log(-\log(\hat{S}_{KM}(t)))$を変換対象とします。デルタ法による$\hat\theta$の漸近分散は$\widehat{\mathrm{Var}}[\hat{S}_{KM}(t)]/[\hat{S}_{KM}(t)\log(\hat{S}_{KM}(t))]^2$であり、$\hat\theta$の95%区間を逆変換することで$[0,1]$範囲が保証された信頼区間が構成されます。
$$\left[\exp\!\left(-\exp\!\left[\hat\theta + 1.96\sqrt{\widehat{\mathrm{Var}}[\hat\theta]}\right]\right),\;\exp\!\left(-\exp\!\left[\hat\theta – 1.96\sqrt{\widehat{\mathrm{Var}}[\hat\theta]}\right]\right)\right]$$
log-log変換が推奨される理由は境界値問題の回避にあります。$S(t)$が0または1に近い場合でも、log-log変換後の推定値は実数全体を動くため、逆変換後の区間が必ず$[0,1]$内に収まります。標本サイズが小さい場合や曲線の末端では特にこの利点が大きいです。ただし、いずれの構成方法も漸近正規性の仮定が成立する大標本においてのみ近似が成立します。曲線末端ではリスク集合サイズが小さくなり、信頼区間幅が著しく拡大します。
(Fig2. 2群のKM生存曲線と95%信頼区間(log-log変換):治療群(実線)と対照群(破線)の全生存期間比較)
KM曲線の解釈とリスクテーブル
Kaplan-Meier曲線の各段差は、その失敗時刻における条件付きイベントリスク$d_j/n_j$に対応します。段差が大きいほどその時刻の条件付きリスクが高いことを意味します。打ち切り観測はKM曲線上に短い縦線(tick mark)で示されます。打ち切りが集中する時間区間ではリスク集合が急速に縮小し、その後の区間での推定精度が低下します。
中央生存時間は生存確率が0.5を下回る最初の時刻として定義されます。
$$t_{0.5} = \inf\{t : \hat{S}_{KM}(t) \leq 0.5\}$$
より一般に、$p$パーセンタイル生存時間は以下のように定義されます。
$$t_p = \inf\{t : \hat{S}_{KM}(t) \leq 1 – p\}$$
制限付き平均生存時間は、事前に定めた打ち切り時刻$\tau$までの生存曲線下面積として定義されます。
$$RMST(\tau) = \int_0^{\tau} \hat{S}_{KM}(t)\,dt$$
ステップ関数の形状から、この積分は各ステップの幅と高さの積の総和として計算されます。$\tau$の選択は解析者の判断に依存するため、$\tau$を変えると結果が変化する点に注意が必要です。また、最後の観測が打ち切りである場合、曲線は0に到達せず、中央生存時間が推定不能になることがあります。
リスクテーブルはKM曲線の下部に配置され、各時点での追跡中個体数$n_j$、累積イベント数、打ち切り数$c_j$を時系列で示します。各列を読むことで、特定の時点でのリスク集合の大きさと実際のイベント発生状況を確認できます。2群のKM曲線が時間とともに交差する場合、それはハザード比が時間とともに変化していることを示唆します。曲線末端では被験者数が少なくなるため推定が不安定になり、信頼区間の幅が拡大することで視覚的に確認されます。
(Fig3. KM生存曲線とリスクテーブル:各時点でのリスク集合数・累積イベント数・打ち切り数(2群))
KM推定量の仮定と実務上の限界
Kaplan-Meier推定量は時間均質性を前提とします。全個体が同一集団から独立同分布にサンプリングされ、追跡期間を通じて生存・ハザード構造が変化しないことを仮定します。加えて、独立打ち切り仮定・無情報打ち切り仮定・標本の代表性(試験集団と目標集団の同質性)が成立することが必要です。
Kaplan-Meier推定量は共変量調整に対応していません。年齢・性別・病期などの共変量がアウトカムに影響する場合、KM曲線はこれらの交絡を制御できません。共変量調整が必要な場合はCox比例ハザードモデルへの移行が求められます。
2群のKM曲線が交差する場合、ログランク検定の検出力が低下します。ログランク検定はハザード比が時間を通じて一定という比例ハザード性を前提としており、曲線交差が生じる状況ではこの前提が成立しません。
競合リスクが存在する場合(例:腫瘍学的試験における癌以外の死因)、$1 – \hat{S}_{KM}(t)$は累積発生率を過大推定します。競合リスクで死亡した個体は当該イベントの発生機会を持てないにもかかわらず、打ち切りとして扱われることがこの過大推定の原因です。この場合は累積発生関数にもとづく解析が適切です。
また、少数例・長期追跡ではリスク集合が急速に縮小し、曲線末端の推定が不安定になります。Kaplan-Meier推定量はノンパラメトリック手法の本質的制約として観測範囲外への外挿が不可能であり、観測最大時刻以降の生存確率について推定値を提供できません。
臨床試験における実務では、治療群と対照群の全生存期間または無増悪生存期間の比較にKaplan-Meier曲線が標準的に用いられます。新薬承認申請においてはKaplan-Meier曲線が主要有効性エンドポイントの可視化手段として規制当局に提出されます。競合リスクが存在する腫瘍学的試験では$1 – \hat{S}_{KM}(t)$による過大推定に注意が必要であり、長期追跡試験の後期では被験者数の減少にともない曲線末端の信頼区間が著しく拡大し、その区間での群間比較の統計的信頼性は低くなります。
他推定量との比較:Nelson-Aalen・パラメトリックモデル
Nelson-Aalen推定量は累積ハザード関数$H(t)$を直接推定し、生存関数の推定はBreslow形式$\hat{S}(t) = \exp(-\hat{H}_{NA}(t))$を通じて間接的に得られます。Kaplan-Meier推定量が$S(t)$を直接推定するのに対し、Nelson-Aalen推定量は$H(t)$を推定対象とする点が根本的に異なります。小標本では両推定量は異なる値を返し、Nelson-Aalen推定量はKaplan-Meier推定量よりも生存確率を高く推定する傾向があります(Kaplan-Meier推定量は相対的に下方にバイアスします)。大標本では両者の差は漸近的に消失します。
パラメトリックモデルとの比較では、仮定の強さと推定精度にトレードオフが存在します。指数分布モデルは一定のハザードを仮定し、Weibullモデルは単調増加・単調減少ハザードを表現できます。これらの仮定が正しい場合、パラメトリックモデルは少ないデータでも効率的な推定を行えます。一方、仮定が誤っている場合は系統的なバイアスが生じます。Kaplan-Meier推定量は分布仮定を必要としないため、探索的解析や生存構造が未知の場合に適しており、仮定の妥当性が検証された確認的解析ではパラメトリックモデルが有力な選択肢となります。
| 手法 | 推定対象 | 分布仮定 | 打ち切り処理 | 共変量調整 | 小標本特性 |
|---|---|---|---|---|---|
| Kaplan-Meier推定量 | $S(t)$(直接) | なし | リスク集合から除外 | 不可 | 下方バイアスあり |
| Nelson-Aalen推定量 | $H(t)$(直接)、$S(t)$(間接) | なし | リスク集合から除外 | 不可 | KMより上方に推定 |
| 指数分布モデル | $S(t)$(間接) | 一定ハザード | 尤度で処理 | 可(一般化線形モデルとして) | 仮定が正しければ効率的 |
| Weibullモデル | $S(t)$(間接) | 単調ハザード | 尤度で処理 | 可(加速故障時間モデルとして) | 仮定が正しければ効率的 |

