Top 5 This Week

関連記事

3. 生存関数とハザード関数:基本的概念の定義と関係

- 本サイト運営者のサービスの紹介 -

生存時間変数と確率的設定

生存分析の出発点は、関心事象(死亡・再発・故障など)が発生するまでの時間を確率変数として扱うことです。この時間を$T$で表し、$T \geq 0$を満たす連続型非負確率変数と仮定します。

$T$の確率分布は密度関数$f(t)$によって記述されます。$f(t) \geq 0$であり、$\int_0^\infty f(t)\,dt = 1$が成立します。対応する分布関数は次のように定義されます。

$$
F(t) = P(T \leq t) = \int_0^t f(u)\,du
$$

$F(t)$は$t$以前に事象が発生する確率を表します。一方、$t$時点より後まで事象が発生しない確率は$P(T > t) = 1 – F(t)$であり、これが次節で定義する生存関数の基礎となります。

前提条件:$T$は連続型非負確率変数であり、密度関数$f(t)$が$t \geq 0$のほぼ至るところで存在することを仮定します。離散時間の場合は確率質量関数に置き換えが必要ですが、本記事では連続設定を基本とします。打ち切りが観測データに存在する場合でも、$T$自身の分布は概念上この設定のまま定義されます。打ち切りは「$T$の一部しか観測できない」という観測機構の問題であり、$T$の分布そのものを変えるものではありません。

生存関数 S(t) の定義と性質

生存関数$S(t)$は、時刻$t$を超えて事象が発生しない確率として定義されます。

$$
S(t) = P(T > t) = 1 – F(t) = \int_t^\infty f(u)\,du
$$

この定義から、$S(t)$は次の数学的性質を持ちます。

まず境界条件として、$S(0) = P(T > 0) = 1$(開始時点では全員が生存)および$\lim_{t \to \infty} S(t) = 0$(十分長い時間が経てば全員が事象を経験)が成立します。

次に単調性について、$s < t$のとき$\{T > t\} \subseteq \{T > s\}$が成立するため、$S(s) \geq S(t)$となります。すなわち$S(t)$は単調非増加関数です。

右連続性についても、確率測度の右連続性から$S(t)$は右連続となります。連続分布の仮定のもとでは左連続性も成立するため、$S(t)$は連続関数です。

なお、治癒率モデルや裾の重い分布では$\lim_{t \to \infty} S(t) > 0$となる場合があります。これは集団の一部が当該事象を経験しないことを意味しますが、本記事の基本設定では$S(\infty) = 0$を仮定します。

前提条件:打ち切りのない理想的設定のもとで定義を導入します。限界:実データでは$S(t)$を直接観測することはできません。観測された生存時間と打ち切り情報からの推定にはKaplan-Meier推定量(03_04)が必要です。

ハザード関数 h(t) の定義と直感的解釈

ハザード関数$h(t)$は、時刻$t$まで事象を経験していないという条件のもとで、$t$直後の微小区間$[t, t+\Delta t)$に事象が発生する条件付き瞬間率として定義されます。

$$
h(t) = \lim_{\Delta t \to 0} \frac{P(t \leq T < t + \Delta t \mid T \geq t)}{\Delta t} $$

この定義から$h(t) = f(t)/S(t)$という重要な関係が導かれます。分子$f(t)$は時刻$t$に事象が発生する無条件の密度であり、分母$S(t)$は時刻$t$まで生存している確率です。

$$
h(t) = \frac{f(t)}{S(t)} = \frac{-d}{dt}\log S(t)
$$

$h(t)$は「確率」ではなく「率」です。$\Delta t$で割っているため単位は時間の逆数となり、値は1を超えることもあります。非負性($h(t) \geq 0$)は保証されますが、上限はありません。

ハザードの形状は医学・工学的に多様な意味を持ちます。手術直後のような初期高リスク期には単調減少型が見られます。加齢による死亡リスクは単調増加型に対応します。ある種の疾患では時間とともに一定のハザードを示す指数分布的挙動が観察されます。さらに術後回復と後期再発が重なる場合はバスタブ型(初期高→低→後期高)となります。

指数分布のハザードが一定である理由は、この分布が記憶なし性を持つことに由来します。記憶なし性とは「$t$まで生存したという情報が残余寿命の分布に影響しない」という性質であり、$P(T > s + t \mid T > s) = P(T > t)$として定式化されます。連続分布においてこの性質を持つのは指数分布のみです。

前提条件:連続型$T$のもとで定義します。離散生存時間の場合はハザード確率$\lambda_j = P(T = t_j \mid T \geq t_j)$として定義が変わります。限界:$h(t)$は直接観測できず、推定も不安定になりやすいです。実用上は次節で定義する累積ハザード関数$H(t)$を経由して推定することが一般的です。

累積ハザード関数 H(t) と各関数の相互変換

累積ハザード関数$H(t)$は$h(t)$の積分として定義されます。

$$
H(t) = \int_0^t h(u)\,du
$$

$H(t)$は単調非減少関数であり、$H(0) = 0$です。$h(t) \geq 0$から積分値は常に非負であり、上限はありません。

$S(t) = \exp(-H(t))$の関係は次のように導かれます。$h(t) = -d\log S(t)/dt$を$[0, t]$で積分すると$H(t) = -\log S(t)$となり、指数変換により次が得られます。

$$
S(t) = \exp(-H(t))
$$

これにより$f(t)$も$H(t)$と$h(t)$で表現できます。

$$
f(t) = h(t)\exp(-H(t)) = h(t) \cdot S(t)
$$

以下の表に4関数の相互変換をまとめます。

出発関数 S(t) で表す h(t)・H(t) で表す f(t) で表す
$S(t)$ $\exp(-H(t))$ $\int_t^\infty f(u)\,du$
$h(t)$ $-\dfrac{d}{dt}\log S(t)$ $\dfrac{f(t)}{\int_t^\infty f(u)\,du}$
$H(t)$ $-\log S(t)$ $\int_0^t h(u)\,du$ $-\log\!\int_t^\infty f(u)\,du$
$f(t)$ $-\dfrac{dS(t)}{dt}$ $h(t)\exp(-H(t))$
ワイブル分布における4関数の関係

(Fig3. ワイブル分布(κ=2, λ=1)を例に、S(t)・h(t)・H(t)・f(t) の4関数を2×2パネルで同時表示し、相互変換関係を示します。)

限界:$H(t)$は実データでは直接計算できません。ノンパラメトリック推定にはNelson-Aalen推定量(03_05)を用います。

代表的分布によるハザード形状の比較

$h(t)$の形状は分布族の選択によって大きく異なります。以下では指数・ワイブル・対数正規の3分布を比較します。なお、本節ではパラメータが既知の設定で形状を議論します。

指数分布はハザードが一定となる最も単純なモデルです。スケールパラメータ$\lambda > 0$のもとで$h(t) = \lambda$となります。この一定ハザードは前節で述べた記憶なし性に対応します。臨床試験のベースライン期間など、事象率が安定している場面で用いられます。

ワイブル分布は形状パラメータ$\kappa > 0$とスケールパラメータ$\lambda > 0$をもち、ハザードは次の式で与えられます。

$$
h(t) = \frac{\kappa}{\lambda}\left(\frac{t}{\lambda}\right)^{\kappa-1}
$$

$\kappa < 1$のとき$h(t)$は時間とともに減少し(初期高リスク型)、$\kappa = 1$のとき$h(t) = \lambda^{-1}$(指数分布に一致)、$\kappa > 1$のとき$h(t)$は単調増加します(加齢型リスク)。この形状パラメータによる柔軟性がワイブルモデルを広く使用させる主因です。

対数正規分布は$\log T \sim N(\mu, \sigma^2)$として定義されます。対応するハザード関数は解析的な閉形式を持たず、数値計算が必要ですが、時間とともに増加した後に減少する非単調(上に凸)な形状を示します。手術後に回復が進む過程など、初期リスク上昇→後期低下のパターンに対応します。

分布 パラメータ h(t) ハザード形状 適用例
指数分布 $\lambda > 0$ $\lambda$(定数) 一定 安定期の事象率、放射性崩壊
ワイブル分布($\kappa < 1$) $\kappa, \lambda > 0$ $\frac{\kappa}{\lambda}\left(\frac{t}{\lambda}\right)^{\kappa-1}$ 単調減少 術後早期死亡リスク
ワイブル分布($\kappa > 1$) $\kappa, \lambda > 0$ 同上 単調増加 加齢性疾患、機器摩耗故障
対数正規分布 $\mu \in \mathbb{R},\, \sigma > 0$ 閉形式なし(数値計算) 非単調(上に凸) 術後回復期、一部の感染症
各分布のハザード関数比較

(Fig2. 指数・ワイブル(κ=0.5, 1, 2)・対数正規の4ハザード関数 h(t) の比較。形状の多様性(一定・増加・減少・非単調)を示します。)

前提条件:パラメータ既知の設定で形状を比較します。限界:実データへのどの分布の適合度が高いかはAICやBICによるモデル選択で判断する必要があります(03_07)。

生存関数とハザード関数の可視化と解釈

生存関数の形状はリスクの時間的分布を反映します。$S(t)$の急峻な低下は事象発生が特定の時間帯に集中していることを示し、緩やかな低下はリスクが長期間にわたって分散していることを意味します。

臨床的に重要な指標である中央生存時間は、$S(t)$が0.5に達する時点$t_{\mathrm{med}}$として定義されます。

$$
S(t_{\mathrm{med}}) = 0.5
$$

これは「集団の半数が事象を経験するまでの時間」に対応し、生存曲線グラフ上では横軸$t$への水平線$S=0.5$の交点として読み取れます。$S(t)$が0.5に達しない場合(打ち切りが多い場合など)は中央生存時間が定義できないことに注意が必要です。

平均生存時間は$S(t)$の積分として表現されます。

$$
E[T] = \int_0^\infty S(t)\,dt
$$

ただし$T$の分布が裾の重い場合(指数分布で$\lambda$が小さい場合など)は$E[T]$が収束しないこともあり、中央生存時間の方が要約統計量として安定しています。

$h(t)$の形状も臨床解釈に直結します。術後の観察では、術後早期に$h(t)$のピークが現れ、その後低下するパターンが観察されることがあります。がん再発率が年単位で増加する場合は単調増加型ハザードとなります。

後続の比例ハザードモデル(Cox モデル、03_08)では「$\log(-\log S(t))$を$\log(t)$に対してプロットしたとき直線になる」という比例ハザード仮定の視覚的確認が重要になります。2群の曲線が平行であれば比例ハザード仮定が成立している証拠となります。本節ではその先取りとして、この変換が$H(t) = -\log S(t)$から導かれることに触れておきます。

3分布の生存関数比較

(Fig1. 3分布(指数・ワイブル増加・ワイブル減少)の生存関数 S(t) の比較。横軸:時間 t、縦軸:S(t)。中央生存時間を破線で示します。)

限界:観測データから$S(t)$を推定するにはノンパラメトリック推定量が必要です。次記事(03_04)ではKaplan-Meier推定量による$S(t)$の推定を扱います。

Popular Articles