回帰分析の定義と歴史的背景
回帰分析は、1つまたは複数の説明変数と目的変数の間にある統計的関係を定式化し、予測や係数の推論を行う手法の総称です。その一般形は「目的変数 = 定数項 + 各説明変数に対する係数の線形結合 + 誤差項」という構造で表されます。この枠組みにおいて、誤差項は観測値とモデルによる予測値の差分を表す確率的成分であり、分布的仮定を課すことで統計的推論が可能になります。
「回帰」という語は、19世紀後半のイギリスの統計学者フランシス・ゴルトンによる身長の世代間継承に関する観察に由来します。ゴルトンは、背の高い親から生まれた子の身長は親よりも集団平均に近づく傾向があり、逆に背の低い親の子も同様に平均方向へ移動することを観察しました。この現象は「平均への回帰」と呼ばれ、極端な観測値が繰り返しの測定によって集団平均に向かって収束する統計的性質を指します。この「平均への回帰」という観察事実から、変数間の関係を直線で要約する手法全般に「回帰」という語が転用されるようになりました。
その後、カール・ピアソンが相関係数と回帰係数の数学的関係を整備し、変数間の線形関連の強さを定量化する理論的基盤が確立されました。ピアソンによるこの数学的整備により、回帰分析は恣意的な観察記録ではなく、再現性のある統計的手続きとして定式化されました。今日では、単純な線形モデルから複雑な非線形・正則化モデルに至る広範な手法群の総称として「回帰分析」という語が用いられています。
従属変数と独立変数の役割
回帰分析において、変数は非対称な役割を持ちます。予測・説明の対象となる変数を目的変数(従属変数・応答変数)と呼び、通例 $Y$ で表します。一方、$Y$ の変動を説明するために用いる変数を説明変数(独立変数・予測変数)と呼び、通例 $X$ または $X_1, X_2, \ldots, X_p$ で表します。この役割の非対称性は本質的なものであり、「$Y$ は $X$ に依存するが、$X$ は $Y$ に依存しない」というモデル上の方向性を意味します。この方向性は観測データだけから決まるものではなく、分析者が研究上の問いや理論的根拠に基づいて設定するものです。
説明変数が1つである場合を単回帰、2つ以上である場合を重回帰と呼びます。単回帰では $Y$ と $X$ の関係を平面上の直線で表現しますが、重回帰では $p$ 次元空間内の超平面がデータの中心傾向を要約します。重回帰において各説明変数の係数は、他の説明変数を一定に保ったときの $Y$ に対する偏効果を表します。
限界として、説明変数の選定は、統計的な有意性や情報量規準だけでは決定できません。変数の選定には、対象領域の理論的根拠および先行知識が不可欠です。理論的根拠なく変数を機械的に追加・削除すると、過学習や交絡変数の混入により係数の解釈が歪む可能性があります。
回帰分析の二大目的:予測と推論
回帰分析を利用する動機は、大きく「予測」と「推論」の2つに分類されます。それぞれの目的に応じてモデルの評価基準と設計思想が異なります。
予測を主目的とする場合、未知の $X$ の値に対して $Y$ の点推定値または区間推定値を得ることが目標です。この文脈ではモデルの汎化性能、すなわちホールドアウトデータや交差検証における予測誤差が評価の中心となります。係数の解釈可能性よりも予測精度を優先するため、説明変数の数が多くなる傾向があり、場合によっては正則化手法と組み合わせられます。
推論を主目的とする場合、各説明変数の回帰係数の有意性・信頼区間・方向性を統計的に評価することが目標です。係数の点推定値とその不確実性を定量化し、変数間の統計的関連の強さと方向を記述します。この文脈では、モデルの解釈可能性と仮定の妥当性が特に重要になります。
一方で、回帰係数は変数間の統計的関連を記述するものであり、因果関係を自動的に証明するものではありません。因果推論と統計的関連の区別は、回帰分析の応用において常に意識する必要があります。観察データに基づく回帰分析では、無作為化実験とは異なり、未測定の交絡変数が係数推定に影響を与える可能性が排除されていません。因果的な主張を行うためには、因果ダイアグラムや操作変数法など、回帰分析を超えた追加的な方法論的根拠が必要です。
相関と回帰:本質的な違い
(Fig1. 広告費(万円)と売上高(百万円)の散布図および回帰直線。網掛け領域は95%信頼帯を示す。)
相関分析と回帰分析はしばしば混同されますが、目的・対称性・機能の点で本質的に異なります。ピアソン相関係数 $r$ は、2変数の共変動を両変数の変動量で規格化した量であり、$-1 \leq r \leq 1$ の範囲の値をとります。$r = 1$ は完全な正の線形関係、$r = -1$ は完全な負の線形関係、$r = 0$ は線形関係がないことを示します。
相関分析の重要な特性は対称性です。$X$ と $Y$ の相関係数は、$Y$ と $X$ の相関係数と等しくなります。すなわち、変数の順序を入れ替えても値は変わりません。これに対し、回帰分析は非対称です。$Y$ を目的変数とした $X$ on $Y$ 回帰と、$X$ を目的変数とした $Y$ on $X$ 回帰は、一般に異なる回帰直線を与えます。
単回帰における回帰係数 $\hat{\beta}_1$ とピアソン相関係数 $r$ の間には、次の関係が成り立ちます。
$$\hat{\beta}_1 = r \cdot \frac{s_Y}{s_X}$$
ここで $s_Y$ は目的変数の標本標準偏差、$s_X$ は説明変数の標本標準偏差です。この式が示すように、回帰係数は相関係数に両変数の散らばりの比を掛けた量であり、変数の単位に依存する有次元の量です。一方、相関係数は無次元であり、スケールに依存しません。
また、単回帰において決定係数$R^2$ はピアソン相関係数 $r$ の二乗に等しくなります。
$$R^2 = r^2$$
$R^2$ は目的変数の全変動のうちモデルで説明される割合を表し、$0 \leq R^2 \leq 1$ の範囲の値をとります。重回帰では $R^2$ は相関係数の二乗ではなく、観測値と予測値の相関係数の二乗として定義されます。
(Fig2. XonY回帰(青線)とYonX回帰(赤線)は同一データから異なる直線を与える。相関は対称だが回帰は非対称であることを示す。)
限界として、相関係数は線形関係の強さのみを捉えます。変数間に強い非線形な依存関係が存在する場合、相関係数はその関係を適切に反映せず、見かけ上低い値を示すことがあります。また、アンスコムの四組として知られる一連のデータセットは、同一の相関係数・回帰係数・$R^2$ を持ちながら、散布図上では全く異なるデータ構造を示します。この事実は、要約統計量だけに基づく分析の限界を端的に示しており、回帰分析においては散布図等による視覚的確認が不可欠です。
| 特性 | 相関分析 | 回帰分析 |
|---|---|---|
| 方向性 | なし($X \leftrightarrow Y$ の方向を問わない) | あり($X \to Y$ という方向を仮定) |
| 変数の役割の対称性 | 対称($X$ と $Y$ を入れ替えても値は不変) | 非対称(目的変数と説明変数の役割が固定される) |
| 予測機能の有無 | なし(新しい $X$ に対する $Y$ の予測は不可) | あり(回帰式を用いた点推定・区間推定が可能) |
| 複数変数への対応 | 原則2変数間の1対1の関係を表す | 複数の説明変数を同時に扱える(重回帰) |
| 係数の実務的解釈 | 強さと方向の無次元指標(−1〜1) | 説明変数1単位増加あたりの目的変数の変化量(有次元) |
マーケティング分析における応用例
マーケティング分析において、回帰分析は広告費と売上高の関係をモデル化し、次期キャンペーンの予算配分と期待売上を定量的に予測するために用いられます。ここでは、説明変数 $X$ を広告費(万円)、目的変数 $Y$ を売上高(百万円)として単回帰モデルを設定します。
過去の観測データから推定された回帰式が $\hat{Y} = 2.5 + 0.8X$ であるとすると、この式における係数 $0.8$ は「広告費が1万円増加するとき、売上高は平均的に0.8百万円(80万円)増加する」という統計的関連を表します。この係数は、他の条件が観測範囲で一定であるという前提のもとで解釈される偏効果です。
点予測は、この回帰式に新しい $X$ の値を代入することで得られます。たとえば次期キャンペーンの広告費を $X = 10$(万円)と設定する場合、予測売上高は $\hat{Y} = 2.5 + 0.8 \times 10 = 10.5$(百万円)と計算されます。ただし、点推定値 $\hat{Y}$ は単一の予測値であり、その不確実性を表現するためには区間推定が必要です。
この文脈で重要なのは信頼区間と予測区間の区別です。信頼区間は回帰直線の真の期待値 $E[Y \mid X]$ の推定範囲を表し、予測区間は新しい個別観測値 $Y$ の予測範囲を表します。個別の観測値には誤差項の変動が加わるため、予測区間は信頼区間より必ず広くなります。意思決定の文脈では、期待値ではなく個別の売上を予測する場合に予測区間を用いるべきです。
仮定として、このモデルは、広告費と売上高の間に観測範囲内で線形関係が成立するという前提のもとで推定されます。線形性の仮定が成立しない領域では、係数の解釈および点予測の精度が著しく低下します。
限界として、観測されたデータの範囲を超えた外挿は、予測精度が大きく低下するため原則として避けるべきです。広告費が過去に観測された最小値を下回る範囲や最大値を上回る範囲では、線形関係の成立が保証されません。また、マーケティングデータには季節変動・競合他社の活動・消費者センチメントなど、多数の交絡変数が存在します。これらが適切に測定・統制されていない場合、単純な線形回帰による係数を因果的に解釈することは妥当ではありません。
回帰分析の種類と発展的手法
回帰分析には、単純な線形モデルから高度な正則化手法まで、目的とデータの特性に応じた多様な手法が存在します。本シリーズでは、まず単回帰および重回帰を基盤として取り扱い、その後に発展的手法へと進む構成をとります。
単回帰・重回帰は最小二乗法(OLS: ordinary least squares)による推定が標準的です。OLS推定量は、誤差項の独立性・等分散性・正規性などの仮定のもとで望ましい統計的性質を持ちます。これらの仮定については次回以降の記事で詳述します。
一般化線形モデル(GLM: generalized linear model)は、目的変数の分布族を正規分布以外に拡張したモデルです。二値変数にはロジスティック回帰(二項分布)、計数データにはポアソン回帰(ポアソン分布)というように、データの性質に応じて適切な分布族とリンク関数を選択します。
正則化回帰は、過学習を抑制するためにペナルティ項を追加した手法群です。Ridge回帰は係数の二乗和をペナルティとし、Lasso回帰は係数の絶対値和をペナルティとすることでスパースな解を得ます。Elastic Netはこの両者を線形結合したペナルティを用います。これらの手法は、説明変数の数がサンプルサイズに近い場合や多重共線性が問題になる状況で特に有効です。
ロバスト回帰は外れ値の影響を軽減した推定手法であり、分位点回帰は目的変数の条件付き分布における特定の分位点を推定します。分位点回帰は分布の裾を含む形状の異質性を分析する際に用いられます。
限界として、モデルの複雑化は予測精度の向上をもたらす一方で、係数の解釈可能性を低下させます。これは精度と解釈性のトレードオフとして知られており、分析目的に応じた手法選択が求められます。また、正則化手法や分位点回帰などの発展的手法は、安定した推定のために十分なサンプルサイズを要求し、計算資源の需要も高くなります。サンプルサイズが小さい場合には推定の分散が大きくなり、結果の信頼性が低下します。


