10.1 生存時間分析の基礎（カプラン・マイヤー法）

生存時間分析（Survival Analysis）は、ある特定の事象（イベント）が発生するまでの「時間」を目的変数として解析する統計手法の総称です。医学・疫学分野における「患者の生存期間の解析」を起点として発展しましたが、現在では工学分野における「機械部品の故障までの時間（信頼性工学）」や、ビジネス分野における「顧客がサービスを解約（チャーン）するまでの期間」など、幅広い領域で適用されています。

通常の回帰分析（線形回帰など）を生存時間データに直接適用することは不適切とされています。その最大の理由は、生存時間データ特有の「打ち切り（Censoring）」という現象を適切に処理できないためです。

1. 打ち切りの概念

生存時間分析におけるデータは、観察期間中に事象が発生したか否かによって状態が分かれます。事象の発生が確認できなかったデータを「打ち切りデータ（Censored data）」と呼びます。

右側打ち切り（Right Censoring）

生存時間分析において最も頻繁に遭遇する打ち切りの形態です。観察期間の終了、対象者の追跡不能（ドロップアウト）、あるいは他の原因による事象の発生（競合リスク）などにより、「少なくともある時点までは事象が発生していなかったが、それ以降の正確な発生時点が不明」な状態を指します。

以下に、臨床試験（新薬の投与開始からの生存期間）とSaaSビジネス（契約開始からの解約までの期間）を例とした、事象発生と打ち切りの違いを示します。

データ状態	医学的観察の事例（エンドポイント：死亡）	ビジネスの事例（エンドポイント：解約）	解析上の取り扱い
事象発生 (Event)	観察期間中に患者が死亡した。	観察期間中に顧客がサービスを解約した。	確定した生存時間 $T$ としてモデルに組み込む。
右側打ち切り (Right Censored)	研究終了時点で生存している。転院により追跡不能となった。交通事故など別の要因で死亡した。	分析時点（月末など）で契約を継続している。規約違反により強制退会となった。	「少なくとも観察期間 $t$ までは事象が未発生である」という情報として扱う。

打ち切りデータを除外して事象が発生したデータのみで平均生存時間を計算すると、実際の生存時間よりも過小評価するバイアスが生じます。生存時間分析の諸手法は、この打ち切りデータが持つ「その時点までは生存していた」という部分的な情報を数学的に定式化し、尤度関数に組み込むことでバイアスを回避します。

2. 生存関数とハザード関数

生存時間 $T$ を確率変数としたとき、生存時間分析は主に2つの関数を用いてモデル化されます。

生存関数（Survival Function）

ある時点 $t$ を超えて事象が発生しない（生存している）確率を表す関数です。$S(t)$ と表記されます。

$$
S(t) = P(T > t) = 1 – F(t)
$$

ここで、$F(t)$ は累積分布関数 $P(T \le t)$ です。生存関数は時間 $t=0$ で $S(0)=1$（100%生存）となり、時間が経過するにつれて単調非増加（減少または維持）の曲線を描きます。

ハザード関数（Hazard Function）

ある時点 $t$ まで生存しているという条件の下で、その直後の微小な時間区間 $[t, t+\Delta t)$ に事象が発生する「瞬間的な確率の割合（発生率）」を表します。$h(t)$ または $\lambda(t)$ と表記されます。

$$
h(t) = \lim_{\Delta t \to 0} \frac{P(t \le T < t + \Delta t \mid T \ge t)}{\Delta t} $$

生存関数が「累積的な結果」を示すのに対し、ハザード関数は「その瞬間におけるリスクの高さ」を示します。例えば、人間の死亡に対するハザード関数は、乳幼児期にやや高く、その後低下し、高齢になるにつれて再び上昇するという「バスタブ曲線」を描くことが知られています。

3. カプラン・マイヤー法（Kaplan-Meier Method）

カプラン・マイヤー法は、観察データから生存関数 $S(t)$ を推定するためのノンパラメトリック手法（特定の確率分布を仮定しない手法）です。別名「積限推定法（Product-Limit estimator）」とも呼ばれます。

推定のメカニズム

観察期間において事象が発生した各時点を $t_1 < t_2 < \dots < t_k$ とします。ある時点 $t_i$ における条件付き生存確率（直前の時点まで生存していた対象者が、時点 $t_i$ を乗り越える確率）を計算し、それらを掛け合わせることで累積生存確率を求めます。

$$
\hat{S}(t) = \prod_{i: t_i \le t} \left( 1 – \frac{d_i}{n_i} \right)
$$

$n_i$：時点 $t_i$ の直前で「事象が発生するリスクに曝されている（At risk）」対象者の数。既に事象が発生した者や、打ち切りとなった者はここから除外されます。
$d_i$：時点 $t_i$ において実際に事象が発生した対象者の数。

この計算により、推定された生存曲線は階段状（ステップ関数）のグラフとなります。打ち切りデータは $d_i$ にはカウントされませんが、それ以前の時点の $n_i$（分母）には含まれるため、全体の生存確率の推定に寄与します。

4. 生存曲線の比較：ログランク検定（Log-rank Test）

カプラン・マイヤー法で推定された2つ以上の群（例：新薬投与群とプラセボ群、またはサービスA利用者とサービスB利用者）の生存曲線を比較し、群間に統計的な有意差があるかどうかを検定する手法です。

仮説と検定手順

帰無仮説（$H_0$）： 全ての群の生存関数（ハザード関数）は等しい。
対立仮説（$H_1$）： 少なくとも1つの群の生存関数が異なる。

ログランク検定は、事象が発生した各時点において、「帰無仮説が正しい（群間に差がない）と仮定した場合の期待発生数」と「実際の観測発生数」の差を計算し、それらを全期間にわたって足し合わせることで検定統計量を算出します。この統計量は、サンプルサイズが十分に大きい場合、自由度 $k-1$（$k$ は群の数）のカイ二乗分布 $\chi^2$ に従います。

検定手法の比較（ログランク検定と一般化ウィルコクソン検定）

生存曲線の比較には、ログランク検定の他にも手法が存在します。データの特性や、事象が発生しやすい時期（ハザード関数の挙動）によって適切な手法を選択する必要があります。

検定手法	重み付けの特徴	適しているケース
ログランク検定 (Log-rank Test)	全ての時点における事象発生に等しい重みを与える。	観察期間の後半に発生する事象を評価したい場合。比例ハザード性の仮定が成り立つ場合。
一般化ウィルコクソン検定 (Generalized Wilcoxon Test)	各時点の「リスク集合の数（$n_i$）」を重みとして乗じる。	観察期間の前半（対象者が多い時期）に発生する事象の違いを重視したい場合。

まとめ

生存時間分析は、時間経過と事象発生の有無を同時に扱うための枠組みです。基礎となる本項のポイントは以下の通りです。

打ち切り（特に右側打ち切り）の適切な処理が、通常の回帰分析との最大の違いである。
生存関数 $S(t)$ とハザード関数 $h(t)$ を用いて、事象発生の確率と瞬間的なリスクを定量化する。
カプラン・マイヤー法は、データを階段状の生存曲線として可視化・推定するためのノンパラメトリックな標準手法である。
ログランク検定を用いることで、打ち切りデータを考慮したまま複数群の生存時間の差異を統計的に評価できる。

これらの基礎手法は事象の発生傾向を把握し、群間比較を行う目的には適していますが、連続変数などの複数の共変量が生存時間に与える影響を同時に評価することはできません。そのため、多変量解析への拡張が必要となります。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company