ガンマ分布は、非負の連続値をモデル化するのに適した連続確率分布です。この分布は、特に待ち時間や寿命といった、常に0以上の値をとるデータを扱う際に非常に有用です。その柔軟な形状から、多くの異なるデータパターンを表現することができ、統計学や工学、金融工学など幅広い分野で応用されます。
(図:ガンマ分布)
ガンマ分布の定義とパラメータ
ガンマ分布は、形状パラメータ$k$(または$\alpha$)と、尺度パラメータ$\theta$(または比パラメータ$\beta$)という、2つのパラメータによって定義されます。
- 形状パラメータ$k$ $(k>0)$: 分布の形状を決定します。この値が小さいほど分布は右に歪み、大きくなるにつれて正規分布に近い対称的な形になります。
- 尺度パラメータ$\theta$ $(\theta>0)$: 分布のスケールを決定します。$\theta$が大きいほど、分布は右に引き伸ばされ、データの値が大きくなる傾向があります。
ガンマ分布に従う確率変数$X$の確率密度関数$f(x)$は、以下の式で表されます。
$$f(x;k,\theta) = \frac{1}{\Gamma(k)\theta^k}x^{k-1}e^{-x/\theta}$$
ここで、$x>0$であり、$\Gamma(k)$はガンマ関数です。ガンマ関数は階乗の概念を実数に拡張したもので、$\Gamma(k) = (k-1)!$が成り立ちます。
また、尺度パラメータの代わりに比パラメータ$\lambda=1/\theta$を用いて、以下のように定義されることもあります。この場合、$\lambda$は単位時間あたりの事象の発生率を表します。
$$f(x;k,\lambda) = \frac{\lambda^k}{\Gamma(k)}x^{k-1}e^{-\lambda x}$$
ガンマ分布の重要な性質
1. 平均と分散
ガンマ分布の平均$\mu$と分散$\sigma^2$は、パラメータを用いて以下のように計算されます。
$$\mu = k\theta = \frac{k}{\lambda}$$
$$\sigma^2 = k\theta^2 = \frac{k}{\lambda^2}$$
形状パラメータ$k$が大きいほど、平均値からのデータのばらつきが小さくなることが分かります。
2. 柔軟な形状
ガンマ分布の最大の利点は、パラメータ$k$と$\theta$の組み合わせによって、非常に多様な形状を表現できることです。
- $k=1$の場合、ガンマ分布は指数分布と一致します。指数分布は、ポアソン過程における次のイベントが発生するまでの待ち時間をモデル化します。
- $k$が整数$n$の場合、ガンマ分布はアーラン分布と呼ばれます。アーラン分布は、ポアソン過程において$n$回目のイベントが発生するまでの待ち時間をモデル化します。
- $k=\nu/2$、$\theta=2$の場合、ガンマ分布はカイ二乗分布と一致します。カイ二乗分布は、仮説検定や区間推定に不可欠な分布です。
ポアソン分布との密接な関係
ガンマ分布とポアソン分布は、統計学において「双対(Dual)」の関係にあります。
- ポアソン分布は、一定期間内に発生する事象の回数をモデル化します(離散値)。
- ガンマ分布は、ポアソン過程において、指定された回数の事象が発生するまでの待ち時間をモデル化します(連続値)。
例:コールセンターの電話待ち時間
コールセンターにかかってくる電話の件数が1時間あたり平均$\lambda=10$件のポアソン分布に従うとします。このとき、次の電話がかかってくるまでの待ち時間は指数分布(ガンマ分布で$k=1$としたもの)に従います。さらに、5回目の電話がかかってくるまでの総待ち時間は、ガンマ分布$\text{Gamma}(k=5, \theta=1/\lambda)$に従うことになります。
ガンマ分布の応用事例
1. 待ち時間分析
コールセンターの電話着信、ウェブサーバーへのリクエスト、病院での患者の待ち時間など、様々な待ち時間をモデル化するのに使われます。
2. 信頼性工学と寿命モデル
電子部品や機械の寿命、バッテリーの持続時間など、故障までの時間をモデル化するのに適しています。これにより、製品の信頼性を評価したり、メンテナンス計画を最適化したりすることができます。
3. 保険と金融
保険会社が扱う個々の損害額や、信用リスクにおけるデフォルトまでの時間など、非負の連続的な損害額をモデル化するために使われます。
4. 雨量のモデリング
降雨量が非負の連続値であり、その分布が正規分布とは異なることが多いため、気象学において降雨量をモデル化するのに使われることがあります。
まとめ
カウントデータを扱うポアソン分布に対して、ガンマ分布時間データを扱います。そして、ガンマ分布は指数分布やカイ二乗分布を含む、非負の連続値をモデル化するための非常に柔軟な確率分布です。特に、ポアソン過程における待ち時間をモデル化するという重要な役割を担っています。
形状パラメータと尺度パラメータを適切に設定することで、様々なデータパターンに適合させることができ、信頼性工学、金融、待ち行列理論など、多岐にわたる分野で実用的なツールとして活用されます。
