7.2 ポアソン回帰分析

ポアソン回帰分析は、一般化線形モデル（GLM）の一種であり、目的変数が「0以上の整数値」をとるカウントデータ（計数値）である場合に用いられる統計手法です。

通常の線形回帰分析では、目的変数が正規分布に従う連続量であることを仮定しますが、ある期間内の事故発生件数、Webサイトへのアクセス数、製品の欠陥数といったデータは、負の値をとらず、また平均値が小さい場合には正規分布とは異なる分布形状を示します。こうしたデータに対して適切なモデリングを行うのがポアソン回帰です。

ポアソン回帰の適用場面

ポアソン回帰は、特定の時間や空間内における「稀な事象の発生回数」を扱うのに適しています。代表的な例として以下のようなものがあります。

ある交差点での1ヶ月間の交通事故件数
コールセンターへの1時間あたりの入電数
製造ラインにおける製品1ロットあたりの不良品数
ある病気の地域ごとの発症者数

数学的定義とGLMの構成要素

一般化線形モデル（GLM）は、確率分布、線形予測子、リンク関数の3つの要素で構成されます。ポアソン回帰におけるそれぞれの設定は以下の通りです。

1. 確率分布：ポアソン分布

目的変数 $y$ は、平均パラメータ $\lambda$（ラムダ）を持つポアソン分布に従うと仮定します。ポアソン分布の確率質量関数は以下の式で表されます。

$$
P(Y=y) = \frac{e^{-\lambda} \lambda^y}{y!}
$$

ここで、ポアソン分布の重要な性質として、期待値（平均）と分散が等しいという特徴があります（$E[Y] = V[Y] = \lambda$）。

2. 線形予測子

説明変数 $x$ と回帰係数 $\beta$ の線形結合を考えます。

$$
\eta_i = \beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}
$$

3. リンク関数：対数リンク関数

ポアソン分布の平均パラメータ $\lambda$ は常に正の値（$\lambda > 0$）である必要がありますが、線形予測子 $\eta$ は負の値もとり得ます。そこで、$\lambda$ の対数をとることで線形予測子と結びつけます。これを対数リンク関数（Log Link）と呼びます。

$$
\log(\lambda_i) = \beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}
$$

これを $\lambda$ について解くと、以下のようになります。

$$
\lambda_i = \exp(\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip})
$$

回帰係数の解釈

ポアソン回帰における回帰係数 $\beta$ の解釈は、通常の線形回帰（加法的な影響）とは異なり、乗法的な影響として解釈します。

モデル式 $\lambda = \exp(\beta_0 + \beta_1 x)$ において、説明変数 $x$ が1単位増加した場合の平均発生回数の変化を考えてみます。

$$
\frac{\lambda_{x+1}}{\lambda_x} = \frac{\exp(\beta_0 + \beta_1 (x+1))}{\exp(\beta_0 + \beta_1 x)} = \exp(\beta_1)
$$

つまり、$x$ が1増えると、目的変数の平均値（発生回数の期待値）は $\exp(\beta_1)$ 倍になります。これを発生率比（Incidence Rate Ratio: IRR）と呼びます。

$\beta > 0$ の場合：$\exp(\beta) > 1$ となり、回数は増加する。
$\beta < 0$ の場合：$\exp(\beta) < 1$ となり、回数は減少する。
$\beta = 0$ の場合：$\exp(\beta) = 1$ となり、変化しない。

オフセット項の利用

カウントデータを扱う際、観測対象によって「観測期間」や「対象範囲」が異なる場合があります。例えば、A店の「1週間」の来店数と、B店の「1ヶ月」の来店数を単純に比較することはできません。

このように単位時間や単位面積あたりの発生率をモデル化したい場合、オフセット項（offset term）を利用します。

観測期間や範囲を $T_i$ とすると、単位あたりの発生率 $\lambda_i / T_i$ をモデル化することになります。

$$
\log\left(\frac{\lambda_i}{T_i}\right) = \beta_0 + \beta_1 x_i
$$

これを変形すると以下のようになります。

$$
\log(\lambda_i) – \log(T_i) = \beta_0 + \beta_1 x_i \\
\log(\lambda_i) = \log(T_i) + \beta_0 + \beta_1 x_i
$$

この $\log(T_i)$ の部分は回帰係数が1に固定された説明変数として扱われます。これをオフセット項と呼び、期間や人口規模の違いを補正するために用います。

過分散（Overdispersion）への対処

ポアソン回帰の前提条件として「平均と分散が等しい」という性質がありますが、実際のデータでは分散が平均よりも大きくなることが頻繁にあります。これを過分散（Overdispersion）と呼びます。

過分散が存在する状態でポアソン回帰を行うと、標準誤差が過小評価され、結果として有意でない変数を有意と誤認してしまうリスクがあります。

過分散が疑われる場合の対処法として、以下の手法が挙げられます。

負の二項分布回帰（Negative Binomial Regression）：ポアソン分布よりも分散が大きいデータを扱えるように確率分布を変更したモデルです。過分散パラメータを導入することで柔軟に対応します。
準ポアソン回帰（Quasi-Poisson Regression）：尤度関数を完全には特定せず、平均と分散の関係のみを指定して推定を行う手法（疑似尤度法）です。分散を平均の定数倍（$\phi \lambda$）として扱います。

モデルの評価

ポアソン回帰モデルの当てはまりの良さを評価するには、決定係数 $R^2$ の代わりに以下の指標を用います。

対数尤度：モデルがデータにどれだけ適合しているかを表す指標で、値が大きいほど当てはまりが良いことを示します。
逸脱度（Deviance）：飽和モデル（データを完全に説明できるモデル）と現在のモデルの乖離度を表します。値が小さいほど当てはまりが良いことを示します。
AIC（赤池情報量基準）：モデルの複雑さと適合度のバランスを評価する指標で、小さいモデルほど予測性能が良いと判断されます。過分散モデルと比較する際にも有用です。

まとめ

ポアソン回帰分析は、マーケティングにおけるクリック数分析や、医療における発症数分析など、カウントデータを扱う実務的な場面で非常に広く利用されています。

正規分布を前提とした線形回帰をカウントデータに無理に適用すると、負の予測値が出たり、分散の性質を無視した誤った推定につながります。データの性質が「0以上の整数」である場合は、まずポアソン回帰の適用を検討し、過分散が見られる場合には負の二項分布回帰へとステップを進めるのが標準的な解析フローです。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company