2026年 2月 25日 水曜日

Top 5 This Week

Related Posts

2.1 正規分布(Normal Distribution)


正規分布は、統計学において最も広く使われている連続確率分布であり、その重要性は多岐にわたります。別名「ガウス分布」とも呼ばれ、平均μ(ミュー:データの中心値)と分散σ²(シグマの二乗:データのばらつきの大きさ)の2つのパラメータによって完全に決定されます。その形状は、左右対称で釣り鐘のような形(ベル型)をしており、データが中央に集中し、そこから離れるにつれて出現頻度が減少していくのが特徴です。

(図:正規分布)

正規分布の数理的定義

正規分布の確率密度関数(特定の値が出現する確率の密度を示す関数)f(x)は、以下の式で表されます。

$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

ここで、xは確率変数(値がランダムに変化する変数)、μは平均、σ²は分散(σは標準偏差)、eは自然対数の底(約2.718の数学定数)です。この関数は、平均μを中心に最も高いピークを持ち、標準偏差σが大きいほど曲線は平坦に広がり、小さいほど鋭く高くなります。

中心極限定理と正規分布の普遍性

正規分布がこれほどまでに重要なのは、中心極限定理(Central Limit Theorem)がその背景にあるためです。中心極限定理とは、「母集団の分布が正規分布でなくても、その母集団から抽出した標本平均の分布は、標本サイズnが大きくなるにつれて、正規分布に近似していく」という統計学の根幹をなす定理です。

この定理により、身長や体重、製品の品質、テストの得点といった多くの自然現象や社会現象のデータが正規分布に従う理由が説明されます。これらの現象は、多数の独立した微小な要因が積み重なって結果が形成されるため、その結果は中心極限定理によって正規分布に近似するのです。

確率の解釈とz-スコア

正規分布では、平均から特定の標準偏差離れた範囲内にデータが含まれる確率が定まっています。

  • 平均μから±1σの範囲内に、全データの約68.3%が含まれます
  • 平均μから±2σの範囲内に、全データの約95.4%が含まれます
  • 平均μから±3σの範囲内に、全データの約99.7%が含まれます

この性質は、3シグマ(3σ)ルールとして知られており、品質管理やリスク管理などで広く応用されています。

また、あるデータxが正規分布においてどの位置にあるかを示す指標としてz-スコア(標準得点)があります。z-スコアは以下の式で計算されます。

$$ z = \frac{x-\mu}{\sigma} $$

z-スコアは、データが平均から何標準偏差分だけ離れているかを示します。これにより、異なる単位やスケールのデータ(例:身長と体重)を比較可能にします。例えば、身長のz-スコアが1.5であることは、その人の身長が平均より1.5標準偏差分高いことを意味します。

正規分布の応用事例

  1. 製造業における品質管理:製品の重量や寸法といった品質特性は、正規分布に従うことが多いです。平均値と標準偏差を管理することで、不良品が発生する確率を予測し、品質を維持・改善することができます。
  2. 金融におけるリスク管理:株式やポートフォリオのリターンは、正規分布に近似されることが多いです。この性質を利用して、VaR(Value at Risk:一定の確率で起こりうる最大損失額)などのリスク指標を計算し、金融商品のリスクを評価します。
  3. 心理学・社会学における測定:IQ(平均100、標準偏差15に調整されたIQスコア)や学力テストの得点など、多くの心理学的・社会学的測定値は正規分布に従うように設計されています。これにより、個人の能力を客観的に評価し、集団内での相対的な位置を把握できます。
  4. マーケティングにおける市場分析:顧客の購入金額やウェブサイトの滞在時間などが正規分布に従うと仮定することで、平均的な顧客像を把握したり、マーケティングキャンペーンの効果を評価したりすることができます。

正規分布の仮定と限界

統計モデルを構築する際には、データが正規分布に従うという正規性の仮定がしばしば用いられます。例えば、t検定や分散分析(ANOVA)、線形回帰などの多くの手法は、この正規性の仮定に基づいています。この仮定が満たされない場合、分析結果の信頼性が損なわれる可能性があります。

正規性の仮定を検証するためには、ヒストグラムやQ-Qプロット(Quantile-Quantile Plot:理論上の正規分布と実際のデータの分位数を比較するグラフ)といった視覚的な手法や、シャピロ・ウィルク検定(Shapiro-Wilk test:データが正規分布に従うかを統計的に検定する手法)やコルモゴロフ・スミルノフ検定(Kolmogorov-Smirnov test:データの分布が特定の理論分布に従うかを検定する手法)などの統計的検定が用いられます。

もし正規性の仮定が満たされない場合は、データの変換(例:対数変換(データの値の対数を取る変換)、平方根変換(データの値の平方根を取る変換))を行って正規分布に近づけるか、あるいはノンパラメトリック検定(分布の仮定を必要としない検定手法)や一般化線形モデル(GLM)といった、正規性の仮定を必要としない別の手法を選択する必要があります。

まとめ

正規分布は、その数学的な美しさと、中心極限定理による応用範囲の広さから、統計学とデータサイエンスの土台をなす最も重要な確率分布です。その特性を理解し、適切に応用することは、データから信頼性の高い知見を引き出すための第一歩となります。

正規分布の概念は、単なる確率論に留まらず、品質管理、金融、社会科学など多岐にわたる分野で実用的なツールとして活用されています。一方で、安易に正規分布を仮定するのではなく、データの性質を十分に検証し、必要に応じて適切な代替手法を選択することが、より正確な分析を行う上で不可欠です。

Popular Articles