4.2 モデルの評価と診断

モデルの前提条件が満たされていることを確認した上で、そのモデルが適切にデータを説明しているかを評価し、潜在的な問題（外れ値、影響力のある観測値など）を診断する必要があります。また、複数の仮説を同時に検定する際には、偶然に有意な結果が得られるリスクを考慮し、多重比較の調整を行うことが不可欠です。

多重比較の調整

多重比較の問題は、多数の仮説検定を同時に行う際に、第一種の過誤（帰無仮説が真であるにもかかわらず、誤って棄却してしまう確率）が増加する現象を指します。個々の検定の有意水準を$\alpha$とすると、ファミリー全体での第一種の過誤率は$1 – (1 – \alpha)^m$となり、検定の数$m$が増えるほどほぼ確実に偽陽性（False Positive）が生じます。この問題を解決するために、ファミリーワイズ誤り率（FWER）や偽発見率（FDR）を制御する手法が用いられます。

ファミリーワイズ誤り率（FWER）の制御

FWERは、「ファミリー全体で少なくとも1つの偽陽性が出る確率」を指します。FWERを厳密に制御することは、特に医学研究や臨床試験など、単一の誤った結論が重大な結果を招く場合に重要です。

ボンフェローニ補正（Bonferroni Correction）

最もシンプルで保守的なFWER制御法です。個々のp値の有意水準を$\alpha / m$に調整します。

$$p_i < \frac{\alpha}{m}$$

この手法はFWERを厳密に制御しますが、非常に保守的であるため、検出力が低くなるという欠点があります。

ホルム法（Holm-Bonferroni Method）

ボンフェローニ補正の改良版であり、より高い検出力を持つFWER制御法です。

$m$個の仮説に対応するp値を昇順に並べ、$p_{(1)} \le p_{(2)} \le \dots \le p_{(m)}$とします。
各p値に対応する補正された有意水準$\alpha’_i$を、$\alpha’_i = \alpha/(m-i+1)$と設定します。
最小のp値$p_{(1)}$から順に、対応する補正有意水準と比較していきます。
$p_{(1)} \le \alpha/m$であれば棄却します。
次に$p_{(2)}$と$\alpha/(m-1)$を比較します。
このプロセスを、最初に$p_{(i)} > \alpha/(m-i+1)$となるまで続けます。この時点で、その仮説とその後のすべての仮説は棄却されません。

特徴

ボンフェローニ法がすべてのp値に対して一律に$\alpha/m$という厳しい基準を適用するのに対し、ホルム法は段階的な基準を用いるため、より多くの仮説を棄却できる可能性があり、検出力が高いとされています。

偽発見率（FDR）の制御

FDRは、棄却された仮説のうち偽陽性である割合の期待値を指します。FWERがファミリー全体での誤りを厳密に制御するのに対し、FDRは、多少の偽陽性を許容する代わりに、より多くの真の陽性（真の関連）を発見することを目的とします。特に、ゲノムワイド関連解析（GWAS）やマイクロアレイ解析など、数千から数十万もの検定を同時に行うような、大規模なデータ解析において非常に有効です。

Benjamini-Hochberg法（False Discovery Rate Control）

定義

FDRを制御する代表的な手法です。

手順

$m$個の仮説に対応するp値を昇順に並べ、$p_{(1)} \le p_{(2)} \le \dots \le p_{(m)}$とします。
各p値に対応するFDR制御のための基準値を、$\frac{i}{m}\alpha$と設定します。
最大のp値$p_{(m)}$から逆順に、この基準値と比較していきます。
最初に$p_{(i)} \le \frac{i}{m}\alpha$となる$i$を見つけます。
この$i$と、それよりも小さい順位（$p_{(1)}$から$p_{(i)}$まで）のすべての仮説を棄却します。

特徴

ボンフェローニ法やホルム法よりも検出力が大幅に高いという利点があります。偽陽性の数をある程度許容しつつ、真の関連性を効率的に発見することに焦点を当てています。

残差分析

残差（Residuals）は、モデルによって予測された値と、実際の観測値との差です。

$$e_i = y_i – \hat{y}_i$$

ここで、$y_i$は観測値、$\hat{y}_i$は予測値、$e_i$は残差です。残差を分析することで、モデルが満たすべき前提条件（線形性、独立性、等分散性、正規性）が満たされているかを診断できます。

線形性の診断

予測値（または独立変数）を横軸に、残差を縦軸にプロットします。点がランダムに均一に散らばっていることが理想です。もしプロットが曲線的なパターン（例：放物線）を示す場合、独立変数と従属変数の関係が線形ではない可能性を示唆します。

等分散性の診断

予測値（または独立変数）を横軸に、残差を縦軸にプロットします。残差のばらつきが予測値の全範囲にわたって一定であることが理想です。もし残差のばらつきが予測値の増加とともに広がる場合（ファンネル型）、不均一分散（Heteroscedasticity）の存在を示唆します。この場合、データの変換（例：対数変換）や、ロバストな標準誤差の推定（例：ホワイトの標準誤差）を検討する必要があります。

正規性の診断

残差の正規性は、Q-Qプロットを用いて視覚的に診断します。残差が正規分布に従う場合、プロット上の点はほぼ直線に沿って並びます。曲線からの逸脱は、残差の分布が歪んでいることや、尖度が異なることを示唆します。

外れ値と影響力の診断

外れ値や特定の観測値は、モデルの推定結果に過大な影響を与える可能性があります。これらの観測値を特定し、その影響を評価することが重要です。

外れ値の検出

外れ値は、残差が非常に大きい観測値です。

平均二乗誤差（Mean Squared Error, MSE）

MSEは、モデル全体の予測誤差の平均的な大きさを示す指標です。残差の二乗の平均であり、モデルの当てはまりの良さを評価する際に広く用いられます。

$$ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i – \hat{y}_i)^2 = \frac{1}{n} \sum_{i=1}^n e_i^2 $$

標準化残差（Standardized Residuals）

各残差をその標準偏差（正確には、MSEの平方根）で割った値です。これにより、異なるモデルやデータでも残差の大きさを比較しやすくなります。

$$r_i = \frac{e_i}{\sqrt{\text{MSE}}}$$

スチューデント化残差（Studentized Residuals）

各観測値をモデルから除外した場合の残差の標準偏差で割った値です。より正確な外れ値の指標となります。

$$t_i = \frac{e_i}{\sqrt{\text{MSE}(1-h_{ii})}}$$

ここで、$h_{ii}$はレバレッジです。

影響力のある観測値の検出

影響力のある観測値は、モデルの推定結果（回帰係数など）に大きな影響を与える観測値です。

クックの距離（Cook’s Distance）

ある観測値をモデルから除外した場合に、他のすべての観測値の予測値がどの程度変化するかを測定する指標です。クックの距離が大きい観測値は、モデルに大きな影響を与えていると判断されます。

$$D_i = \frac{r_i^2}{p \times \text{MSE}} \frac{h_{ii}}{1-h_{ii}}$$

ここで、$p$はモデルのパラメータ数です。

レバレッジ（Leverage）

観測値が独立変数空間の端に位置している度合いを示します。レバレッジが高い観測値は、モデルの回帰係数を強く引っ張る傾向があります。

モデル適合度の指標

モデルの適合度指標は、モデルがデータをどれだけよく説明しているかを定量的に評価する尺度です。

決定係数（$R^2$）

モデルが従属変数の変動をどの程度説明しているかを示す指標です。0から1の値を取り、1に近いほどモデルの適合度が高いことを意味します。

$$R^2 = 1 – \frac{\text{SS}_{res}}{\text{SS}_{total}}$$

ここで、$\text{SS}_{res}$は残差平方和、$\text{SS}_{total}$は全変動平方和です。

調整済み決定係数（Adjusted $R^2$）

$R^2$は独立変数を追加するたびに増加するため、モデルの複雑さに対するペナルティを課すように調整された指標です。

$$\text{Adjusted } R^2 = 1 – (1-R^2)\frac{n-1}{n-p-1}$$

情報量規準（AIC, BIC）

モデルの適合度と複雑さのバランスを評価する指標です。値が小さいほど、より良いモデルであることを示します。

AIC（赤池情報量規準）

$$\text{AIC} = -2 \log L + 2k$$

BIC（ベイズ情報量規準）

$$\text{BIC} = -2 \log L + k \ln(n)$$

ここで、$L$はモデルの最尤推定値、$k$はモデルのパラメータ数、$n$は標本サイズです。

汎化性能の評価

モデルの真の性能は、学習に使用していない新しいデータに対する予測能力、すなわち汎化性能によって評価されるべきです。クロスバリデーション（Cross-validation）は、この汎化性能を評価するための主要な手法です。

ホールドアウト法

データを学習セットとテストセットに分割し、学習セットでモデルを構築し、テストセットで評価します。シンプルですが、データ分割の方法によって結果が不安定になる可能性があります。

k分割交差検証（k-fold Cross-validation）

データを$k$個のサブセットに分割します。1つのサブセットをテストセットとして使用し、残りの$k-1$個のサブセットを学習セットとしてモデルを構築し評価します。これを$k$回繰り返すことで、すべてのデータがテストセットとして1度ずつ使われ、より安定した性能評価が得られます。

まとめ

モデルの評価と診断は、統計分析の結論が頑健で信頼できるものであることを保証するために不可欠です。本章で述べた手法を体系的に適用することで、モデルの前提条件を確認し、潜在的な問題を発見し、その汎化性能を客観的に評価することが可能になります。

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company