Top 5 This Week

関連記事

5. 決定係数とモデル評価指標

- 本サイト運営者のサービスの紹介 -

なぜモデル評価が必要か

回帰モデルを構築した後、そのモデルが目的変数の変動をどの程度説明できているかを客観的に測定する必要があります。評価の基本的な発想は、「すべての予測値を目的変数の標本平均$\bar{y}$とする帰無モデル(平均モデル)を基準として比較する」というものです。帰無モデルは説明変数の情報を一切使わない最もシンプルな予測器であり、回帰モデルはこれを上回る説明力を持つかどうかが問われます。

この評価の枠組みでは、目的変数の変動を三つの成分に分解します。全変動(SST)は目的変数が標本平均から離れている総量を表し、

$$\text{SST} = \sum_{i=1}^{n}(y_i – \bar{y})^2$$

回帰変動(SSR)はモデルの予測値$\hat{y}_i$が平均$\bar{y}$からどれだけ離れているかを示す二乗和であり、

$$\text{SSR} = \sum_{i=1}^{n}(\hat{y}_i – \bar{y})^2$$

残差変動(SSE)は実測値と予測値の差(残差)の二乗和です。

$$\text{SSE} = \sum_{i=1}^{n}(y_i – \hat{y}_i)^2$$

切片項を含む通常最小二乗法(OLS)による推定のもとでは、これら三つの変動量に次の加法分解が成立します。

$$\text{SST} = \text{SSR} + \text{SSE}$$

この等式は、目的変数の全変動が「モデルで説明できた変動(SSR)」と「説明できなかった変動(SSE)」に分割されることを意味します。「説明できた変動の割合」という評価軸が、次節で定義する決定係数の根拠となります。加法分解はOLS推定量に固有の性質であり、正則化推定や他の推定法では一般に成立しません。

散布図上でSST・SSR・SSEを矢印で可視化した変動分解図

(Fig1. 全変動・回帰変動・残差変動の分解とR²の視覚的理解)

決定係数(R²)の定義と解釈

決定係数$R^2$は、全変動に占める回帰変動の比率として定義されます。

$$R^2 = \frac{\text{SSR}}{\text{SST}} = 1 – \frac{\text{SSE}}{\text{SST}}$$

$R^2$は目的変数の分散のうち、モデルの説明変数によって説明できる割合を表します。OLS推定量の性質から$0 \leq \text{SSE} \leq \text{SST}$が保証されるため、切片を含むOLS回帰モデルでは$0 \leq R^2 \leq 1$が成立します。$R^2 = 0$はモデルが帰無モデルと等価で予測力を持たないことを、$R^2 = 1$はすべての残差がゼロで完全な当てはまりが得られていることを意味します。

単回帰(説明変数が1つ)の場合、$R^2$は目的変数と説明変数のピアソン積率相関係数$r$の二乗と一致します。

$$R^2 = r^2 \quad \text{(単回帰の場合)}$$

この等価性は重回帰には成立しません。解釈にあたっては四点に注意が必要です。第一に、$R^2$は予測誤差の絶対的な大きさを示しません。$R^2 = 0.9$であっても残差の規模が実務上許容できない水準である可能性があります。第二に、説明変数を追加するたびに$R^2$は必ず増加します。このため、説明変数の数が異なるモデルを$R^2$のみで比較することは適切ではありません。第三に、$R^2$の高さは説明変数と目的変数の因果関係を示しません。相関関係と因果関係は区別して解釈する必要があります。第四に、$R^2$は目的変数のスケールや単位とは独立した無次元の指標です。目的変数を定数倍してもSSTとSSRが同率で変化するため$R^2$の値は変わりませんが、対数変換などの非線形変換を施したモデルや基準となる帰無モデルが異なるモデルとの間では$R^2$は比較できません。比較対象モデルの選定には注意が必要です。

切片なしモデルでは$R^2$が負の値をとる場合があり、この場合の$R^2$は通常の解釈が成立しません。

自由度調整済みR²

説明変数を追加すると、その変数が実質的な予測力を持たない場合でも$R^2$は必ず増加します。この単調増加性は過学習と結びつく問題であり、特にサンプル数$n$に対して説明変数の数$p$が多い場合に顕著です。自由度ペナルティを導入した自由度調整済み$R^2$($\bar{R}^2$)は、この問題に対処するための指標です。

$$\bar{R}^2 = 1 – \frac{(1 – R^2)(n – 1)}{n – p – 1}$$

分子の$(n-1)$は全自由度、分母の$(n-p-1)$は残差自由度です。説明変数を追加した際に$R^2$の増加量が小さければ、残差自由度の減少によるペナルティが上回り$\bar{R}^2$は低下します。この仕組みにより、説明変数の数$p$がモデル複雑度に対するペナルティとして機能します。$p \geq 1$のとき$\bar{R}^2 \leq R^2$が常に成立します。

説明変数の追加に伴うR²と自由度調整済みR²の変化を示す折れ線グラフ

(Fig2. 説明変数の追加に伴うR²と自由度調整済みR²の変化)

$\bar{R}^2$の適用には$n > p + 1$、すなわちサンプル数が説明変数の数より十分大きいことが前提です。この条件が満たされない場合、$\bar{R}^2$の計算は無効となります。また、帰無モデルよりも当てはまりが悪いモデルでは$\bar{R}^2$が負の値をとる場合があります。$\bar{R}^2$は変数選択の一つの手がかりにはなりますが、唯一の基準とするべきではなく、AIC(赤池情報量規準)や交差検証と補完的に使用することが求められます。非線形モデルや変換済み目的変数を用いるモデルと$\bar{R}^2$で直接比較することはできません。

情報量基準:AICとBIC

AIC(赤池情報量規準)とBIC(ベイズ情報量規準)は、モデルの最大対数尤度とパラメータ数ペナルティのバランスによってモデルの良さを評価する情報量基準です。最大対数尤度を$\ell$、パラメータ数を$k$、サンプル数を$n$とすると、

$$\text{AIC} = -2\ell + 2k$$
$$\text{BIC} = -2\ell + k\ln(n)$$

$-2\ell$はモデルの観測データへの適合の悪さを表し、値が小さいほど適合が良好です。パラメータ数$k$に係るペナルティ項は、パラメータを増やすことで適合度を人為的に高めることへの罰則として機能します。いずれの基準も値が小さいモデルが優れていると判断します。

誤差が正規分布に従う線形回帰モデルでは、最大対数尤度を残差二乗和$\text{SSE}$で表現でき、AICは次のように展開されます(モデル比較に無関係な定数を除く)。

$$\text{AIC} = n\ln\!\left(\frac{\text{SSE}}{n}\right) + 2k$$

BICはAICのペナルティ$2k$を$k\ln(n)$に置き換えた形をとるため、$n \geq 8$ではBICのペナルティがAICを上回り、サンプル数が増大するほど少数パラメータのモデルを選好します。AICは予測精度の最大化を目的とし、BICはデータ生成過程のモデルの選択一致性を目的とするという点で、両者は異なる評価哲学を持ちます。

AIC・BICを使用する前提として、比較するモデルが同一データ・同一目的変数を使用していることが必要です。絶対値には意味がなく、モデル間の差分のみが解釈可能です。非入れ子(非ネスト)モデル間でも適用可能ですが、モデルファミリーが大きく異なる場合には慎重な解釈が求められます。サンプル数が少ない状況($n/k$が小さい場合)には、AICに小標本補正を施したAICcの使用が推奨される場合があります。

予測精度指標:RMSEとMAE

回帰モデルの予測誤差の大きさを目的変数と同じ単位で定量化する指標として、平均二乗誤差(MSE)の平方根であるRMSEと平均絶対誤差(MAE)が用いられます。残差を$e_i = y_i – \hat{y}_i$とすると、

$$\text{MSE} = \frac{1}{n}\sum_{i=1}^{n}e_i^2, \quad \text{RMSE} = \sqrt{\text{MSE}} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}e_i^2}$$
$$\text{MAE} = \frac{1}{n}\sum_{i=1}^{n}|e_i|$$

RMSEは誤差を二乗した上で平均するため、大きな残差が二乗により強く重み付けされます。その結果、外れ値が存在する場合にRMSEは大幅に増大し、モデルの全体的な精度評価が歪む恐れがあります。一方MAEはすべての残差を絶対値で均等に扱うため、外れ値に対するロバスト性が高い指標です。二乗平均の性質から$\text{RMSE} \geq \text{MAE}$が常に成立します。

外れ値なし・1点・複数点の3シナリオにおけるRMSEとMAEの棒グラフ比較

(Fig3. 外れ値の存在がRMSEとMAEに与える影響の比較)

推定理論との対応として、RMSEの最小化は誤差がガウス分布に従うという仮定のもとでの最尤推定と等価です。MAEの最小化は中央値回帰に対応します。

RMSEは外れ値に敏感であるため、外れ値を含むデータでのモデル評価では過大な誤差が報告される可能性があります。MAEはゼロ点で微分不可のため、勾配降下法による最適化には劣微分を用いるなどの工夫が必要です。RMSEとMAEをいずれも学習データ上で計算する場合、過学習の検出はできません。テストデータや交差検証を通じたアウトサンプル評価が不可欠です。

評価指標の比較と使い分け

各評価指標の特性を横断的に整理します。

指標名 数式(概要) 値の範囲・方向性 主な用途 外れ値感度 注意点
$R^2$ $1 – \text{SSE}/\text{SST}$ 0〜1・大きい方が良い モデルの説明率の確認 低〜中 変数追加で必ず増加。因果を示さない
自由度調整済み$R^2$ $1 – (1-R^2)(n-1)/(n-p-1)$ $\leq R^2$・大きい方が良い 説明変数数の異なるモデルの比較 低〜中 負になる場合あり。非線形モデル間では使用不可
AIC $-2\ell + 2k$ 範囲なし・小さい方が良い モデル選択・変数選択 絶対値に意味なし。同一目的変数のモデル間のみで比較
BIC $-2\ell + k\ln(n)$ 範囲なし・小さい方が良い 真のモデル選択(大標本) AICより強いペナルティ。小標本では過度に制約
RMSE $\sqrt{\sum e_i^2 / n}$ $\geq 0$・小さい方が良い 予測精度の定量評価 外れ値で過大評価。学習データのみでは過学習を検出不可
MAE $\sum |e_i| / n$ $\geq 0$・小さい方が良い ロバストな予測精度評価 ゼロ点で微分不可。中央値回帰に対応

インサンプル評価(学習データによる評価)とアウトサンプル評価(テストデータや交差検証による評価)の区別も重要です。$R^2$・$\bar{R}^2$・AIC・BICはモデルの相対比較や変数選択に使用されます。RMSEとMAEは予測誤差の大きさを実際の単位で示し、アウトサンプル評価によって過学習の検出が可能となります。

どの指標も単独では不十分であり、複数の指標を組み合わせて総合的に判断することが求められます。解釈重視(要因分析・変数の寄与の把握)を目的とするならば$\bar{R}^2$やAIC・BICによるモデル選択が中心となり、予測重視の場合はアウトサンプルでのRMSE・MAEが主な評価軸となります。

マーケティング分析への応用

広告費・媒体別投下量・季節フラグを説明変数とした月次売上予測モデルを例として、各評価指標の実践的な適用を整理します。

媒体変数(テレビ・Web・店頭)を段階的に追加した場合、$R^2$は変数を追加するたびに必ず増加します。一方、$\bar{R}^2$は実質的に説明力のない媒体変数を追加した際に低下するため、どの媒体の追加が統計的に有効かを$\bar{R}^2$の増減で確認できます。

媒体の組み合わせを複数候補として比較する場面では、AICによるモデル選択が有効です。同一の売上データを目的変数として複数のモデルを構築し、AICが最小となるモデルが予測精度と複雑度のバランスに優れると判断されます。BICはAICより強いペナルティを課すため、大規模なデータセットではよりパラメータ数の少ないモデルを選好する傾向があります。

予測誤差の実務報告にはMAEが適しています。MAEは「平均的に売上予測が◯万円外れる」という形で実務担当者に解釈しやすい形で提示できます。一方、キャンペーン期間中の売上急騰は外れ値として残差が大きくなりやすく、RMSEはその影響を受けて過大な値を示す場合があります。そのためキャンペーン効果の強いデータではRMSEがモデルの実力を正確に反映しない可能性を認識する必要があります。

また、売上モデルの$R^2$が高い値を示しても、それは各媒体と売上の相関関係を表すにとどまります。各媒体への広告投資対効果(ROI)を推定するためには、交絡変数の制御や操作変数法、あるいは実験的なデザインが別途必要であり、$R^2$の高さを媒体効果の因果的根拠とすることは統計的に誤りです。

Popular Articles