生存データの情報欠損と分析上の課題
生存分析では、関心の対象は特定のイベント(死亡・再発・故障等)が発生するまでの時間$T$です。しかし実際の研究では、試験期間の制約や追跡の中断により、$T$の値をすべての個体について完全に観察できる状況は例外的です。
個体$i$についての真のイベント時間を$T_i$、何らかの理由で追跡が終了する打ち切り時間を$C_i$とします。研究者が実際に観察できるのは、これら二者のうち先に発生した時点と、その時点がイベントによるものかどうかを示す指標の組み合わせです。この構造を形式的に定義すると、
$$\tilde{T}_i = \min(T_i,\, C_i),\quad \delta_i = I(T_i \leq C_i)$$
となります。$\tilde{T}_i$は観察時間、$\delta_i$は完全観察を示す指示変数です。$\delta_i = 1$は時点$\tilde{T}_i$でイベントが発生したことを意味し、$\delta_i = 0$は$\tilde{T}_i$時点でイベントが未発生のまま追跡が終了した(打ち切り)ことを意味します。
生存データの特殊性は、この情報欠損が単なる欠測ではなく確率的構造を持つ点にあります。完全観察個体とは$\delta_i = 1$の個体であり、打ち切り観察個体とは$\delta_i = 0$の個体です。打ち切り例を分析から除外することは追跡期間中の生存情報を廃棄することになり、推定量に系統的バイアスを生じさせます。したがって、打ち切りの構造を尤度関数に正しく組み込む手続きが必要です。
打ち切りの三類型:右・左・区間打ち切りの定義
打ち切りには観察の方向に応じて三つの類型があります。
右打ち切りは最も一般的な類型であり、観察時間$\tilde{T}_i$以降の生存時間が不明な状態です。個体$i$の観察ペアは
$$(\tilde{T}_i,\, \delta_i) = \bigl(\min(T_i, C_i),\, I(T_i \leq C_i)\bigr)$$
と定義されます。臨床試験終了時に生存中の患者や、追跡不能になった患者がこれに該当します。
左打ち切りは、イベントが観察開始前に既に発生していたことが判明しているが、正確な発生時点が不明な場合です。例えば、ある疾患の発症時点が不明で、研究登録時には既に発症済みであることが確認されるケースがこれにあたります。真のイベント時間$T_i$は観察開始時点よりも前に存在します。
区間打ち切りは、イベント発生時点が区間$[L_i, R_i]$内に含まれることのみが判明している場合です。定期的な検診データがその典型例であり、前回検診時には陰性で今回検診時には陽性であった場合、発症は
$$T_i \in [L_i,\, R_i]$$
であることが分かるに留まります。
打ち切りはさらに発生メカニズムの観点から分類されます。Type I打ち切りは試験終了日という固定時点での打ち切りです。Type II打ち切りは、あらかじめ定められた数のイベントが発生した時点で試験を終了する設計です。ランダム打ち切りは、各個体の打ち切り時間が独立な確率変数として生成される場合を指します。
区間打ち切りの推定精度は区間幅の設定に依存します。検診間隔が長いほど発症時点の不確実性が大きくなり、パラメータ推定の精度が低下します。
(Fig1. 患者別観察時間チャート:右打ち切り・左打ち切り・区間打ち切りの3類型を色分けで示す)
切断(truncation):選択バイアスとしての情報構造
切断は打ち切りとは根本的に異なる概念です。打ち切りは観察対象として登録された個体についての情報欠損ですが、切断は観察対象として登録されること自体が選択バイアスによって制限される現象です。
左切断(遅延参入)は、観察開始時点に既に生存している個体のみが研究対象に組み込まれる状況です。後ろ向きコホート研究では、登録日以前に死亡した個体は観察対象に入らないため、観察集団は長生きする傾向のある個体に偏ります。個体$i$が左切断時点$L_i$を超えて生存しているという条件のもとで観察されるため、この個体が尤度に寄与する項は
$$\frac{f(t_i)}{S(L_i)}$$
の形式になります。$S(L_i)$による除算は、$L_i$まで生存していることを所与とした条件付き確率の補正です。
右切断は、観察期間終了前にイベントが発生した個体のみが観察される状況であり、後ろ向き研究で発生します。観察窓の上限を$V$とすると、観察される条件は
$$T_i < V$$
であり、イベントを経験しなかった個体($T_i \geq V$)は観察対象そのものから除外されます。退職者コホートの死亡研究で、研究期間終了前に死亡した個体のみが記録に現れるケースがその例です。
打ち切りは「生存時間は存在するが観察が途中で終わる」という情報欠損であり、切断は「観察条件を満たさない個体は研究対象に入らない」という観察集団そのものの選択バイアスです。切断を無視した場合、観察集団は長生きする個体に偏るため、生存関数が過大評価されます。
(Fig2. 切断と打ち切りの概念比較:観察ウィンドウと真の生存時間の関係)
| 類型 | 観察される情報 | 尤度への寄与 | 臨床試験での典型例 |
|---|---|---|---|
| 右打ち切り | $(\tilde{T}_i,\,\delta_i=0)$:$\tilde{T}_i$時点で追跡終了、以降不明 | $S(\tilde{T}_i)$ | 試験終了時の生存例、追跡不能例 |
| 左打ち切り | 観察開始前にイベント発生済みと判明、時点不明 | $F(L_i) = 1 – S(L_i)$ | 登録時点で既に発症済みであることが確認される例 |
| 区間打ち切り | $T_i \in [L_i,\, R_i]$:発生区間のみ判明 | $S(L_i) – S(R_i)$ | 定期検診間のイベント発生(前回陰性・今回陽性) |
| 左切断(遅延参入) | $T_i > L_i$の条件のもとでの観察 | $f(t_i)\,/\,S(L_i)$(条件付き補正あり) | 後ろ向きコホートで登録日以前の死亡例が除外される状況 |
| 右切断 | $T_i < V$:観察窓内でイベント発生例のみ観察 | $f(t_i)\,/\,F(V)$(観察窓上限での補正) | 後ろ向き研究で観察期間内に発症した例のみ収集 |
無情報打ち切り仮定:独立性の数学的意味
打ち切り構造を尤度関数に正しく組み込むために、無情報打ち切り仮定が要請されます。この仮定は、打ち切り時間$C$が生存時間$T$に関する情報を含まないことを数学的に表現したものです。
打ち切りメカニズムのパラメータを$\phi$、生存時間分布のパラメータを$\theta$とするとき、無情報打ち切り仮定のもとで尤度は
$$L(\theta,\, \phi) = L_T(\theta) \times L_C(\phi)$$
と二成分に分離されます。この尤度分離条件が成立するとき、$\phi$を周辺化しても$\theta$の推定に偏りが生じず、生存時間成分の尤度$L_T(\theta)$のみから$\theta$を推定することが正当化されます。
共変量$X$を条件とした形式的定義では、独立打ち切り仮定は
$$T \perp C \mid X$$
と表現されます。$X$が与えられたもとで$T$と$C$が条件付き独立であるという仮定です。
情報打ち切りは、打ち切りの発生確率が生存時間と関連している状況です。例えば、副作用が重篤化した患者が試験から脱落する場合、追跡不能という打ち切りは生存予後の悪化と正の相関を持ちます。この場合、$T \perp C \mid X$は成立しません。ランダム打ち切りは独立打ち切りの十分条件ですが、独立打ち切りはランダム打ち切りよりも弱い条件です。共変量$X$が$T$と$C$の相関を十分説明する場合、ランダム打ち切りでなくとも独立打ち切り仮定が成立することがあります。
この枠組みは、$T$と$C$の条件付き独立性(共変量$X$が与えられたもとで)という仮定に依存します。
無情報打ち切り仮定は観察データからは原則として検証できません。打ち切りと生存時間の同時分布を直接観察することができないため、仮定の妥当性は研究デザインの文脈と専門的知識から判断する必要があります。また、情報打ち切りが存在する場合、カプラン・マイヤー推定量は真の生存関数を系統的に過大評価または過小評価します。
打ち切りを考慮した尤度関数の構成
無情報打ち切り仮定が成立するとき、右打ち切りを含む生存データに対する完全尤度は
$$L = \prod_{i=1}^{n} f(t_i)^{\delta_i} \cdot S(t_i)^{1-\delta_i}$$
と構成されます。完全観察個体($\delta_i = 1$)はイベント発生の確率密度$f(t_i)$を通じて尤度に寄与します。右打ち切り個体($\delta_i = 0$)は、時点$t_i$以降もイベントが発生していないという情報を生存関数$S(t_i)$の形で尤度に組み込みます。確率密度$f(t_i)$ではなく$S(t_i)$を使う理由は、打ち切り時点以降の正確なイベント時刻が不明であり、「少なくとも$t_i$まで生存した」という情報のみが利用可能であるためです。
区間打ち切り個体については、イベントが区間$[L_i, R_i]$内に発生した確率は
$$S(L_i) – S(R_i)$$
と表されます。これは時点$L_i$まで生存した確率から時点$R_i$まで生存した確率を差し引いたものであり、区間内でイベントが発生した確率を生存関数の差として表現したものです。
左切断が存在する場合、各個体は切断時点$L_i$以降で観察対象となります。観察される条件($T_i > L_i$)を所与とした条件付き尤度では、各個体の寄与を$S(L_i)$で除して補正します。
$$\frac{f(t_i)}{S(L_i)}\quad(\text{完全観察}),\qquad \frac{S(t_i)}{S(L_i)}\quad(\text{右打ち切り})$$
この補正は、観察集団がリスク集合($T_i > L_i$)への参入条件を満たす個体に限定されるという事実を尤度に反映したものです。
(Fig3. 尤度への寄与:完全観察・右打ち切り・区間打ち切りそれぞれが確率密度関数と生存関数上で対応する領域)
この尤度構成には二つの仮定が必要です。第一に、無情報打ち切り仮定(尤度分離が成立すること)です。第二に、打ち切りメカニズムのパラメータ$\phi$と生存時間のパラメータ$\theta$が独立であることです。これらが成立しない場合、上記の尤度関数から得られる$\theta$の推定量は偏りを持ちます。
臨床試験における打ち切りと切断の実際例
無作為化臨床試験における全生存期間エンドポイントの分析を例として、打ち切りと切断の発生形態を具体化します。
行政的打ち切りは、試験プロトコルで定められた終了日(カットオフ日)時点で生存が確認された患者に適用されます。これはType I打ち切りの典型例であり、打ち切り時点が全患者に共通する固定値となります。この打ち切りは試験デザインによって生じるものであり、生存予後とは独立しているため、独立打ち切り仮定が成立します。
追跡不能による右打ち切りは、患者が連絡不能になる、転居する、あるいは他の医療機関に移ることで生じます。追跡不能が治療毒性と関連している場合、独立打ち切り仮定が成立しません。副作用が重篤な患者が試験から脱落しやすい場合、打ち切り確率と死亡リスクは正の相関を持ち、情報打ち切りが発生します。
競合イベントとは、関心のある主要イベント(例:癌死)の発生を妨げる別のイベント(例:心疾患による死亡)です。競合イベントを単純に右打ち切りとして扱うと、主要イベントの発生確率(原因別累積発生率)が過大評価されます。これは競合リスク分析が対象とする問題領域であり、標準的な生存分析の適用範囲を超えた対処が必要です。
後ろ向きコホート研究では左切断が発生します。例えば、コホートへの登録基準に「登録日時点で生存していること」が含まれる場合、登録日以前に死亡した個体は観察対象に入りません。この切断を無視して単純にカプラン・マイヤー法を適用すると、生存関数が上方にバイアスします。
追跡不能が治療毒性や効果不足と関連している場合、独立打ち切り仮定が成立しない点は実務上の重大な制約です。また、競合イベントを単純な右打ち切りとして扱うことは、原因別発生確率の過大評価を招きます。
打ち切り・切断の無視が推定に与える影響
打ち切り例を分析から除外する方法は、打ち切り時点以前の生存情報を廃棄することになり、推定量に系統的バイアスを生じさせます。完全観察例のみを用いた場合のバイアスは打ち切りの発生パターンに依存し、情報打ち切りが存在するとその影響は特に深刻です。
情報打ち切りが存在する場合、カプラン・マイヤー推定量$\hat{S}(t)$の期待値は真の生存関数$S_0(t)$とは系統的に乖離します。打ち切り確率が死亡リスクと正に相関する場合(例:副作用悪化による脱落)、リスク集合から死亡リスクの高い個体が早期に除外されるため、残存するリスク集合は死亡リスクの低い個体に偏ります。その結果、推定量はバイアスの方向として$\hat{S}(t) > S_0(t)$の傾向を持ちます。逆に、打ち切り確率が死亡リスクと負に相関する場合は$\hat{S}(t) < S_0(t)$の傾向が生じます。
三つの比較ケースを整理します。完全観察データ(打ち切りなし)による推定はバイアスなしの基準ケースを与えます。情報打ち切りを無情報打ち切りと誤って仮定した場合のカプラン・マイヤー推定量は、バイアスの方向と大きさがいずれも不定であり、誤った統計的推論を導きます。左切断(遅延参入)を無視した場合の単純なカプラン・マイヤー推定量は、長生きする個体のみが観察集団に含まれるため、一貫して生存関数を上方にバイアスさせます。
独立打ち切り仮定が成立するとき、カプラン・マイヤー推定量は真の生存関数の一致推定量となります。この性質の厳密な議論は次の記事で扱います。
情報打ち切りへの対処として感度分析があります。打ち切り後の生存時間に関する追加仮定(打ち切り後の生存確率の楽観的・悲観的シナリオ等)を置き、推定結果の仮定への感受性を評価する方法です。ただし、感度分析の実施には専門的な追加仮定が必要であり、その解釈には慎重さが求められます。また、打ち切り構造の詳細なカプラン・マイヤー推定量への影響については次の記事で詳述します。


