Top 5 This Week

関連記事

10. 交互作用項と多項式回帰:非線形関係のモデリング

- 本サイト運営者のサービスの紹介 -

概要:交互作用項と多項式回帰の役割

重回帰モデルは説明変数の主効果を加算的に扱いますが、現実のデータでは2つの変数が互いに影響しながら応答変数を変化させる場合があります。こうした現象を捉えるために交互作用項を導入します。2変数の交互作用項を含む基本モデルは次のように表されます。

$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_{12} X_1 X_2 + \varepsilon
$$

また、1変数の$p$次多項式モデルの一般形は次のとおりです。

$$
Y = \sum_{j=0}^{p} \beta_j X^j + \varepsilon
$$

いずれのモデルも、元の特徴量空間では非線形な構造を持ちます。交互作用項や多項式項を新たな特徴量として定義すると、変換後の特徴量空間では線形モデルとして扱えます。これが多項式基底関数による特徴量エンジニアリングの本質であり、最小二乗法をそのまま適用できる理由でもあります。

仮定として、線形性は元の特徴量ではなく変換後の特徴量空間で成立することが前提となります。また、誤差項$\varepsilon$は正規分布$N(0, \sigma^2)$に従うことが想定されます。制約として、高次の相互作用項は解釈が著しく困難になるとともに、特徴量数の増加に伴って計算コストが指数的に増大します。

交互作用項:複数変数の相互的影響

2変数の交互作用項を含む標準的なモデルでは、$X_1$が応答変数に与える偏効果は$X_2$の値に依存します。

$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_{12} X_1 X_2 + \varepsilon
$$

$X_1$に関する条件付き偏微分を取ると、限界効果は次のように表されます。

$$
\frac{\partial E[Y \mid X_2]}{\partial X_1} = \beta_1 + \beta_{12} X_2
$$

$\beta_{12} > 0$であれば$X_2$が大きいほど$X_1$の効果が増幅されます。$\beta_1$は$X_2 = 0$のときの$X_1$の条件付き効果を表すため、主効果として単独に解釈することはできません。条件付き期待値を$X_2$について周辺化すると、$X_1$の平均的な効果を求めることができますが、これには$X_2$の分布に関する情報が必要となります。

3変数以上の高次交互作用の一般形は次のとおりです。

$$
Y = \beta_0 + \sum_{i} \beta_i X_i + \sum_{i < j} \beta_{ij} X_i X_j + \sum_{i < j < k} \beta_{ijk} X_i X_j X_k + \cdots + \varepsilon $$

交互作用項の係数$\beta_{ij}$は有意性検定の対象であり、観測データに十分な変動がなければ推定精度が低下します。$X_1 X_2$は$X_1$および$X_2$と高い相関を持ちやすく、多重共線性が強化される可能性があります。3変数以上の高次交互作用は実務での利用頻度が低く、解釈可能性を著しく損ないます。

2つの説明変数の交互作用効果を示す3次元曲面図

(Fig1. 2つの説明変数の交互作用効果:応答変数の3次元曲面)

多項式特徴量による非線形モデリング

1変数の$p$次多項式モデルは次のように記述されます。

$$
Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \cdots + \beta_p X^p + \varepsilon = \sum_{j=0}^{p} \beta_j X^j + \varepsilon
$$

2変数の2次多項式では、各変数の低次項に加えてクロス項も含まれます。

$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_{11} X_1^2 + \beta_{22} X_2^2 + \beta_{12} X_1 X_2 + \varepsilon
$$

多項式近似と局所線形性の関係は、テイラー展開を通じて理解できます。任意の滑らかな関数$f(x)$は$x = a$の近傍で次のように展開されます。

$$
f(x) = f(a) + f'(a)(x-a) + \frac{f”(a)}{2!}(x-a)^2 + \cdots + \frac{f^{(p)}(a)}{p!}(x-a)^p + R_p(x)
$$

この展開は、十分な次数の多項式で局所的な非線形挙動を近似できることを示しています。高次項を追加するほど予測値は訓練データに接近しますが、余剰な柔軟性は一般化誤差の増加につながります。特徴量スケーリングは重要であり、$X^2$や$X^3$の値が$X$と大きく異なるため、中心化および標準化によって数値的安定性と係数解釈が改善されます。多項式次数の選択はバイアスと分散のバランスを考慮して行います。

仮定として、誤差項は正規分布$N(0, \sigma^2)$に従うことが必要であり、多項式で近似可能な基礎的な関数形が存在することが前提となります。制約として、データ範囲の境界付近での振動(Rungeの現象)が発生する場合があり、高次多項式では数値的不安定性が増大します。観測範囲外への外挿は信頼性が著しく低下するため、適用は内挿領域に限定されます。

1次から3次多項式による非線形データへのフィッティング比較と信頼区間

(Fig2. 1次~3次多項式による非線形データへのフィッティング)

推定と係数解釈

交互作用項や多項式項を含むモデルにおいても、OLS推定量は行列表記で統一的に導出されます。計画行列$\mathbf{X}$に交互作用列$X_1 X_2$や多項式列$X^2$をそれぞれ1列として追加すると、正規方程式は次のとおりです。

$$
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}
$$

最小二乗法は変換後の特徴量空間での線形モデルに対して適用されるため、推定手順は主効果のみのモデルと同一です。この不変性により、交互作用項・多項式項を含むモデルでも同じ枠組みで推定できます。

交互作用項を含むモデルでの偏微分による限界効果は、$X_2$の値に依存します。

$$
\frac{\partial \hat{Y}}{\partial X_1} = \hat{\beta}_1 + \hat{\beta}_{12} X_2
$$

$X_2$の平均値$\bar{X}_2$における限界効果は$\hat{\beta}_1 + \hat{\beta}_{12} \bar{X}_2$となります。係数の比較可能性を高めるために標準化された係数を用いる場合は、各変数の標準偏差$s_{X_j}$および$s_Y$を用いた次の変換が行われます。

$$
\beta_j^* = \hat{\beta}_j \cdot \frac{s_{X_j}}{s_Y}
$$

スケーリングと中心化を行うことで、主効果の係数と交互作用項の係数の相関が低下し、解釈が安定します。正規方程式は交互作用項がある場合でも適用可能ですが、多重共線性が適度であることが前提となります。交互作用項がある場合、主効果の係数はもう一方の変数が0のときの条件付き効果であり、相互作用の有無によって主効果の符号が逆転する場合があります。

過学習リスク

多項式次数や交互作用項の数を増やすと訓練データへの適合度は向上しますが、未知データに対する予測性能が低下するリスクが高まります。予測誤差の期待値はバイアス・分散トレードオフとして分解されます。

$$
E\left[(Y – \hat{Y})^2\right] = \text{Bias}^2(\hat{Y}) + \text{Var}(\hat{Y}) + \sigma^2
$$

モデルの複雑さが増すほどバイアスは減少しますが、分散が増大します。一般化誤差を最小化する最適な複雑さは、この二項のトレードオフが均衡する点に対応します。過学習の兆候は、訓練誤差と検証誤差の乖離として観測されます。

モデル選択にはAIC(赤池情報量規準)およびBIC(ベイズ情報量規準)が用いられます。

$$
\text{AIC} = -2\ell(\hat{\boldsymbol{\beta}}) + 2k, \quad \text{BIC} = -2\ell(\hat{\boldsymbol{\beta}}) + k \log n
$$

ここで$\ell(\hat{\boldsymbol{\beta}})$は対数尤度、$k$はパラメータ数、$n$はサンプルサイズです。AICは予測精度を重視し、BICはパラメータ数に対するペナルティが強いため、より簡潔なモデルを選択する傾向があります。

$K$分割交差検証では、データを$K$分割して各分割をテストセットとした平均予測誤差を求めます。

$$
\text{CV}_{(K)} = \frac{1}{K} \sum_{k=1}^{K} \frac{1}{|V_k|} \sum_{i \in V_k} \left(Y_i – \hat{Y}_i^{(-k)}\right)^2
$$

テストデータでの評価が訓練データと独立に実施されることが前提であり、$K$分割交差検証が適用可能な条件下での使用が推奨されます。サンプルサイズが小さい場合、高次多項式や多数の交互作用項は過学習リスクが特に大きくなります。また、次元が高いと過学習の判別が困難になり、必要なサンプルサイズが増大します。

実践応用:マーケティング分析での活用

マーケティング分析では、異なる広告媒体の組み合わせ効果を交互作用項でモデル化する場面があります。広告費$A$と媒体種別$M$の交互作用を含むモデルの例を示します。

$$
Y = \beta_0 + \beta_1 A + \beta_2 M + \beta_{12} A \cdot M + \varepsilon
$$

$\beta_{12}$が正であれば、特定媒体への広告費の効果が他媒体との組み合わせでさらに増幅されることを示します。ただし、これは相関関係の検出にとどまり、因果的解釈を確立するには実験的設計や操作変数法などの追加手法が必要です。

価格と販売量の非線形な応答関係は2次多項式でモデル化できます。

$$
Q = \beta_0 + \beta_1 P + \beta_2 P^2 + \varepsilon
$$

$\beta_2 < 0$のとき、価格上昇に伴う販売量の減少率が加速することを意味します。価格$P$における価格感度は次のとおりです。

$$
\frac{\partial E[Q]}{\partial P} = \beta_1 + 2\beta_2 P
$$

A/Bテストにおいてセグメント間の効果の異質性を検出する際にも交互作用項が用いられます。処置変数$T$(0/1)とセグメント変数$S$の交互作用係数$\beta_{TS}$が有意であれば、処置効果がセグメントによって異なることを示します。実務では1次・2次の交互作用に限定されることが多く、3次以上は解釈困難でサンプルサイズの要求も増大します。交互作用効果の推定量は標準誤差が大きくなりやすいため、統計的有意性の確認には十分なサンプルサイズが求められます。因果関係の確認は困難であり、観測研究では交絡因子の影響を除去する工夫が必要です。

主効果と交互作用項の予測への寄与度を比較した棒グラフ

(Fig3. 主効果と交互作用項の予測への寄与度)

比較と選択:他の手法との位置づけ

交互作用項・多項式項を用いるモデルは、主効果のみのOLS、非線形回帰、正則化付きモデルと比較して選択されます。以下に各手法の特性をまとめます。

手法 仕組み 主な用途 計算複雑さ 解釈性
交互作用項 変数の積を新特徴量として追加 変数間の相乗・拮抗効果の検出 中程度(変数数の2乗) 1次・2次は高い
2次多項式 変数の2乗項を追加 単峰性・凹凸のある関係 低い 高い
3次多項式 変数の3乗項まで追加 S字曲線など複雑な形状 中程度 中程度
高次交互作用 3変数以上の積項を追加 特殊な交絡構造の検出 高い(指数的増加) 低い

OLS(主効果のみ)との比較では、交互作用項や多項式項の追加はモデルの柔軟性を高める一方で、自由度の消費が増えます。非線形回帰との比較では、多項式回帰はモデル形式が明示的であり解釈が容易ですが、大域的な非線形構造を持つ関数には適合しにくい場合があります。

正則化との比較では、リッジ回帰とLassoの目的関数はそれぞれ次のとおりです。

$$
\hat{\boldsymbol{\beta}}^{\text{Ridge}} = \arg\min_{\boldsymbol{\beta}} \left(\|\mathbf{y} – \mathbf{X}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_2^2\right)
$$

$$
\hat{\boldsymbol{\beta}}^{\text{Lasso}} = \arg\min_{\boldsymbol{\beta}} \left(\|\mathbf{y} – \mathbf{X}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_1\right)
$$

リッジ回帰はすべての係数を縮小し、Lassoは一部の係数をゼロに設定します。交互作用項・多項式項を含むモデルに正則化を適用することで過学習を抑制できますが、解釈可能性と予測性能のトレードオフを考慮する必要があります。候補モデルのAICおよびBICを比較することで次数や交互作用の有無を決定する方法が標準的です。$\Delta\text{AIC} = \text{AIC}_{\text{複雑}} – \text{AIC}_{\text{単純}} < 0$であれば複雑なモデルを支持しますが、差が小さい場合は単純なモデルを優先します。

モデル選択基準の適用にあたっては、AIC・BIC・交差検証を組み合わせて使用することが前提です。複数の候補モデルが比較される状況でこれらの基準が有効であり、自動的に最適モデルを見つける保証はなく、領域知識に基づいた候補設定が必要です。解釈可能性を重視する場合は次数を低く抑え、予測性能を優先する場合は正則化との組み合わせが有効です。

Popular Articles