ガンマ回帰分析は、一般化線形モデル(GLM)の一つであり、正の連続値をとるデータを扱うために設計された手法です。特に、データの分布が正規分布のように左右対称ではなく、右に裾を長く引くような形状(右に歪んだ分布)をしている場合に適しています。
通常の線形回帰分析では、誤差構造に正規分布を仮定しますが、現実のデータ、特に金額や時間に関するデータは、負の値をとらず、平均値が大きくなるほどばらつき(分散)も大きくなる傾向があります。こうしたデータの性質を適切にモデル化するためにガンマ回帰が用いられます。
ガンマ回帰が適しているデータの特徴
ガンマ回帰は、以下のような性質を持つ目的変数の分析に推奨されます。
- 常に正の値をとる(0より大きい連続値)。
- 分布が右に歪んでいる(少数の大きな値が存在する)。
- 平均値が大きいほど、分散も大きくなる(変動係数が一定である)。
具体的な適用例としては以下のようなものが挙げられます。
- 損害保険の支払い請求額(多くの請求は少額だが、稀に高額な請求がある)
- ウェブサイトの滞在時間や、故障までの待機時間
- 不動産価格や世帯年収
- 血中の薬物濃度
正規線形回帰との違い
正規分布を仮定する通常の線形回帰を、上記のようなデータに適用すると、いくつかの問題が生じます。まず、正規分布は負の値を許容するため、予測値としてマイナスの金額や時間が算出される可能性があります。また、正規分布は等分散性(平均が変わっても分散は一定)を仮定しますが、金額データなどは規模が大きくなるほど振れ幅も大きくなることが一般的です。
対数をとって正規分布に近づける(対数正規分布を利用する)方法もありますが、ガンマ回帰を用いることで、変換なしの元のスケールで解釈が可能となり、特に平均値の推定においてバイアスが生じにくいという利点があります。
GLMとしての構造
ガンマ回帰は、GLMの3要素(確率分布、リンク関数、線形予測子)において以下のように設定されます。
1. 確率分布:ガンマ分布
誤差構造としてガンマ分布を指定します。ガンマ分布は形状パラメータ($k$ または $\alpha$)と尺度パラメータ($\theta$)またはレートパラメータ($\beta$)によって定義されます。GLMの文脈では、分散が平均の二乗に比例する($V(\mu) \propto \mu^2$)という特徴が重要です。
2. リンク関数:対数リンク(Log Link)
ガンマ回帰では、リンク関数として対数リンク($\log$)が最も一般的に用いられます。正準リンク関数は逆数リンク($1/\mu$)ですが、解釈のしやすさと、予測値が必ず正になることを保証する点から、実務では対数リンクが好まれます。
モデル式は以下のようになります。
$$
\log(\mu_i) = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip}
$$
ここで $\mu_i$ は目的変数 $y_i$ の期待値(平均)です。
係数の解釈(対数リンクの場合)
対数リンク関数を用いた場合、回帰係数 $\beta$ は目的変数の対数値に対する線形な変化を表します。これを元のスケールに戻して解釈する場合、係数は目的変数に対する乗法的な効果(比率)を意味します。
具体的には、ある説明変数 $x_j$ が1単位増加したとき、目的変数の平均値 $\mu$ は $\exp(\beta_j)$ 倍になります。
- $\beta_j > 0$ の場合:$\exp(\beta_j) > 1$ となり、目的変数は増加します。
- $\beta_j < 0$ の場合:$\exp(\beta_j) < 1$ となり、目的変数は減少します。
- $\beta_j = 0$ の場合:$\exp(\beta_j) = 1$ となり、変化しません。
例えば、係数が0.1であれば、$\exp(0.1) \approx 1.105$ なので、その変数が1増えると目的変数は約10.5%増加すると解釈できます。
ポアソン回帰との違い
右に歪んだ正のデータを扱うGLMとしてポアソン回帰も有名ですが、使い分けの基準は明確です。
- ポアソン回帰:カウントデータ(0以上の整数)が対象。来店者数、事故件数など。
- ガンマ回帰:連続データ(正の実数)が対象。重量、距離、金額など。
また、ポアソン回帰は「平均=分散」という強い仮定を置きますが、現実のデータは分散が平均より大きくなる(過分散)ことが多いため、その場合にもガンマ回帰が代用されたり、負の二項分布が用いられたりすることがあります。
実例:タクシーの乗車料金の分析
ある都市におけるタクシーの乗車料金(円)を、走行距離(km)と時間帯(昼間=0, 深夜=1)で予測するモデルをガンマ回帰(対数リンク)で構築したとします。
結果として以下の係数が得られたと仮定します。
- 切片 $\beta_0$:6.5
- 走行距離 $\beta_1$:0.3
- 深夜ダミー $\beta_2$:0.2
このモデルの解釈は以下のようになります。
$$
\mu = \exp(6.5 + 0.3 \times \text{距離} + 0.2 \times \text{深夜})
$$
走行距離の影響:
$\exp(0.3) \approx 1.35$ なので、走行距離が1km増えるごとに、料金は平均して約1.35倍(35%増)になると推定されます。
深夜帯の影響:
$\exp(0.2) \approx 1.22$ なので、深夜帯は昼間に比べて、同じ距離でも料金が平均して約1.22倍(22%増)になると推定されます。
ガンマ回帰の注意点
- 0を含むデータには適用できない
ガンマ分布の定義域は正の実数($y > 0$)であるため、値が0のデータが含まれていると計算できません。0を含む場合は、Tweedie分布を用いたモデルや、0とそれ以外を分けてモデル化するハードルモデルなどを検討する必要があります。 - 外れ値の影響
正規分布よりは外れ値に強いですが、極端に大きな値は推定結果に影響を与える可能性があります。
まとめ
ガンマ回帰分析は、「正の値」で「右に裾が長い」連続変数を扱うための強力なツールです。線形回帰では捉えきれないデータの不均一分散性や非対称性を適切にモデル化でき、対数リンクを用いることで「何%増加する」といった比率による直感的な解釈が可能になります。金額や時間といったビジネスデータにおいて、線形回帰の前提が満たされない場合の有力な選択肢となります。
