統計学とデータサイエンスの世界には、数多くの確率分布が存在します。その中でも、二項分布とベータ分布は、その本質的な関係性と、現実世界の問題をモデル化する上での絶大な有用性から、特に重要なペアとして認識されています。
二項分布は、私たちが日常的に経験する「成功か失敗か」という単純な事象を、数学的に厳密に扱うためのツールです。一方で、ベータ分布は、その「成功する確率」自体が不確実であるという、より深い問題を扱うためのツールです。
この2つの分布は、特にベイズ統計学(事前の知識と新しいデータを組み合わせて推論を行う統計学の分野)の枠組みにおいて、「共役性」(ある分布をペアで使うと計算が簡単になる特別な関係)で結ばれています。この共役性があることで、データ分析は非常に直感的なプロセスとなり、新しいデータによってどのように情報が更新されるかを明確に示してくれます。
二項分布(Binomial Distribution)
二項分布は、私たちが最も直感的に理解しやすい離散確率分布(0, 1, 2…のような整数値をとる確率分布)の一つです。これは、特定の条件下で行われる「繰り返し試行」の中で、「成功」が何回発生するかの確率をモデル化します。
(図:二項分布)
二項試行の4つの前提
二項分布を適用するためには、その基礎となる「二項試行」(Bernoulli trial:成功か失敗かの2つの結果しかない試行)が以下の4つの厳格な前提を満たしている必要があります。
- 試行回数($n$)が固定されている: 試行は事前に定められた回数だけ繰り返されます。例えば、「コインを10回投げる」という場合、$n=10$です
- 各試行の結果は2つしかない: 各試行の結果は「成功」か「失敗」のいずれかです。これらは相互に排他的(同時に起こらない)な結果でなければなりません
- 成功確率($p$)が一定である: 各試行において、「成功」する確率は常に同じです。例えば、公正なコインを投げる場合、表が出る確率は常に0.5です
- 各試行が独立している: ある試行の結果が、他の試行の結果に影響を与えません
これらの条件が満たされている場合、二項分布は、試行回数$n$と、成功確率$p$という2つのパラメータによって完全に定義されます。
確率質量関数とパラメータ
二項分布の確率質量関数(離散的な確率変数において、特定の値が発生する確率を示す関数)$P(X=k)$は、試行回数$n$の中で、成功がちょうど$k$回発生する確率を計算します。
$$P(X=k) = \binom{n}{k}p^k(1-p)^{n-k}$$
ここで、各要素は以下の意味を持ちます:
- $X$: 成功回数を表す確率変数
- $k$: 成功回数($k=0,1,2,…,n$)
- $\binom{n}{k}$: 二項係数と呼ばれ、「$n$個の中から$k$個を選ぶ組み合わせの数」を意味します。これは$\frac{n!}{k!(n-k)!}$で計算されます
- $p^k$: 成功が$k$回連続して起こる確率
- $(1-p)^{n-k}$: 失敗が$(n-k)$回連続して起こる確率
この数式は、「$k$回成功し、$(n-k)$回失敗する特定のパターンが起こる確率」と「そのパターンが起こる全ての組み合わせの数」を掛け合わせたものです。
重要な性質と応用事例
- 平均(期待値): $E[X] = np$
- 分散: $\text{Var}(X) = np(1-p)$
例1:マーケティング
100人の顧客にダイレクトメールを送ったとき、商品を購入する人数
例2:品質管理
100個の製品をランダムに選んだとき、不良品の個数
例3:スポーツ分析
野球選手が10回打席に立ったとき、ヒットを打つ回数
例4:医療
ある病気の治療薬を100人の患者に投与したとき、治癒する患者の人数
ベータ分布(Beta Distribution)
二項分布が「成功回数」をモデル化するのに対し、ベータ分布は「成功確率」自体をモデル化する、より高度で抽象的な連続確率分布です。ベータ分布は、常に0から1の間の値をとり、この性質から確率や比率を扱うのに非常に適しています。
(図:二項分布)
形状パラメータの直感的理解
ベータ分布は、形状パラメータ$\alpha$と$\beta$の2つによって定義されます。この2つのパラメータは、直感的に成功の数と失敗の数を表していると解釈できます。
- $\alpha$: 成功の擬似観測数(過去に観測したと仮定する成功の回数)
- $\beta$: 失敗の擬似観測数(過去に観測したと仮定する失敗の回数)
例1:事前知識なし
$\alpha=1$、$\beta=1$の場合:事前に成功も失敗も一度も観測していない、つまり何も知らない状態
例2:過去データあり
$\alpha=11$、$\beta=91$の場合:過去に「10回の成功と90回の失敗」を観測
※例1,2ともに、後述の共役性により、alphaと$\beta$は「成功数+1」と「失敗数+1」で更新されるため、直感的な数と少しずれが生じます。
確率密度関数と形状の多様性
ベータ分布の確率密度関数$f(p)$は、以下の式で表されます:
$$f(p;\alpha,\beta) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha,\beta)}$$
ここで、$B(\alpha,\beta)$はベータ関数(確率密度関数の総面積が1になるようにするための正規化定数)です。
パラメータの値によって分布の形状が変化します:
- $\alpha=1, \beta=1$: 一様分布(0から1までのすべての確率が等しく確からしい)
- $\alpha>1, \beta>1$: ベル型の曲線(最も確率が高い部分が存在)
- $\alpha>\beta$: 分布は右に歪み、より高い確率に偏っている
- $\alpha<\beta$: 分布は左に歪み、より低い確率に偏っている
- $\alpha<1, \beta<1$: U字型の分布(極端な確率が最も確からしい)
共役性とベイズ推論
二項分布とベータ分布は、「共役性」という特別な関係で結ばれています。これは、ベイズ統計学における計算を驚くほどシンプルにする、重要な性質です。
ベイズの定理と共役性
ベイズの定理は、以下の式で表されます。
$$P(\text{仮説}|\text{データ}) = \frac{P(\text{データ}|\text{仮説}) \times P(\text{仮説})}{P(\text{データ})}$$
これをベイズ統計学の用語で表現し直すと、事後分布 ∝ 尤度 × 事前分布となります。
- 事後分布(Posterior Distribution):データを見た後の知識
- 事前分布(Prior Distribution):データを見る前の知識
- 尤度(Likelihood):仮説が正しい場合に、そのデータが得られる確率
共役性とは、事前分布と事後分布が同じ種類の分布になるという性質です。
二項分布とベータ分布は、この共役性の関係(二項尤度 × ベータ事前分布 = ベータ事後分布)にあります。
実践的な例:ウェブサイトのクリック率推定
新しいウェブサイトのボタンのクリック率(CTR)を推定する例で、ベイズ推論のプロセスを見てみましょう。
ステップ1:事前分布の設定
事前に何も情報がないので、一様分布($\alpha=1$、$\beta=1$)を事前分布とします。
事前分布 ~ Beta($\alpha=1$, $\beta=1$)
ステップ2:データの収集(実際の観測結果)
- 訪問者数(試行回数):$n=100$
- クリック数(成功数):$k=15$
- クリックしなかった数(失敗数):$n-k=85$
ステップ3:事後分布の計算
共役性により、事後分布もベータ分布になり、パラメータは簡単に更新できます。
- $\alpha_{\text{事後}} = \alpha_{\text{事前}} + \text{成功数} = 1 + 15 = 16$
- $\beta_{\text{事後}} = \beta_{\text{事前}} + \text{失敗数} = 1 + 85 = 86$
事後分布 ~ Beta(16, 86)
ステップ4:結果の解釈
得られたBeta(16, 86)から、
- 最も可能性の高いクリック率:$\frac{\alpha-1}{\alpha+\beta-2} = \frac{15}{100} = 0.15$
- 平均クリック率:$\frac{\alpha}{\alpha+\beta} = \frac{16}{102} \approx 0.157$
さらに、この分布の95%信用区間(真の値がこの範囲内にある確率が95%である区間)を計算することで、より確信度の高い結論を得ることができます。
応用事例
二項分布とベータ分布のペアは、ビジネス、科学、スポーツなど、幅広い分野で活用されています。
A/Bテスト
ウェブサイトの2つのバージョンのどちらが優れているかを判断する際に、それぞれのクリック率やコンバージョン率(訪問者が実際に行動を起こす割合)をベータ分布でモデル化し、事後分布を比較します。
市場調査
新商品の試用調査で、消費者が「好き」か「嫌い」かを二項分布で捉え、その「好きな確率」の不確実性をベータ分布でモデル化します。
スポーツ統計
野球選手の打率や、バスケットボール選手のフリースロー成功率など、選手の真の能力を、過去の成績データから推測するのに使われます。
スパムフィルター
メールがスパムである確率を、過去にそのメールがスパムと判定された回数と、そうでない回数に基づいて推論します。
まとめ
二項分布とベータ分布は、それぞれ異なる役割を持ちます。
- 二項分布: 既知の確率に基づいて「成功の回数」をモデル化します
- ベータ分布: 未知の「成功確率」をモデル化します
この二つの分布が共役性を持つことで、新しいデータが得られるたびに、直感的な方法でアップデートすることができます。このプロセスは、不確実性の中で意思決定を行う現代社会において、不可欠な思考フレームワークを提供しています。特に、段階的に情報を更新していく必要があるビジネス分析や科学研究において、その価値は計り知れないものがあります。
