単回帰モデルとは
単回帰分析は、1つの説明変数(独立変数)$x$ と1つの目的変数(従属変数)$y$ の間の線形関係をモデル化する統計的手法です。モデルは次の式で定義されます。
$$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$$
$i$ は観測のインデックス($i = 1, 2, \ldots, n$)を表します。$y_i$ は $i$ 番目の観測における目的変数の値、$x_i$ は説明変数の値です。$\beta_0$ はモデルの切片パラメータ、$\beta_1$ は傾きパラメータです。$\varepsilon_i$ は確率誤差項であり、説明変数 $x$ だけでは説明できない $y$ のばらつきを表します。測定誤差、モデルに含まれていない変数の影響、その他の偶然的な変動がすべて $\varepsilon_i$ に集約されます。
母数(パラメータ)$\beta_0$ と $\beta_1$ は真の値であり、データからは直接観測できません。データから計算された推定値は $b_0$ および $b_1$ と表記し、母数と区別します。「線形モデル」とは、$y$ と $x$ の関係が直線で表されることを意味します。説明変数が非線形に作用する関係(たとえば $x^2$ の項が必要な場合)には、このモデルをそのまま適用できません。
以下の表に、単回帰モデルを構成する主要な記号を整理します。
| 記号 | 名称 | 説明 | 実例(広告費→売上) |
|---|---|---|---|
| $y$ | 目的変数(従属変数) | モデルで予測・説明しようとする変数 | 月次売上(百万円) |
| $x$ | 説明変数(独立変数) | $y$ を説明するために用いる変数 | 広告費(万円) |
| $\beta_0$ | 切片(母数) | $x = 0$ のときの $y$ の期待値 | 広告費ゼロ時の期待売上 |
| $\beta_1$ | 傾き(母数) | $x$ が1単位増加したときの $y$ の平均変化量 | 広告費1万円増加時の平均売上変化 |
| $\varepsilon$ | 確率誤差項 | $x$ で説明できない $y$ のばらつき | 季節性・競合活動・製品品質など |
| $\hat{y}$ | 予測値(当てはめ値) | 推定されたモデルによる $y$ の予測値 | モデルによる月次売上の推定値 |
| $e_i$ | 残差 | 観測値と予測値の差($e_i = y_i – \hat{y}_i$) | 実際の売上と予測売上の差 |
散布図と回帰直線の視覚的理解
散布図は、横軸に説明変数 $x$、縦軸に目的変数 $y$ をとり、各観測値を点としてプロットした図です。点の分布のパターンから、変数間の関係の方向と強さを視覚的に把握できます。
- 点が右上がりに分布している場合は、$x$ が増加するにつれて $y$ も増加する傾向(正の相関)があります。
- 点が右下がりに分布している場合は、$x$ が増加するにつれて $y$ が減少する傾向(負の相関)があります。
- 点が特定の方向に分布しない場合は、線形の相関がないか、非線形の関係が存在する可能性があります。
回帰直線は散布図上に引かれた直線であり、傾き $b_1$ と切片 $b_0$ によって定まります。傾きは直線の勾配(右方向への1単位移動に対する上方向への変化量)を表し、切片は $x = 0$ における直線の縦軸との交点を示します。「データに最も近い直線」とは、各観測点から直線までの縦方向の距離(残差)の情報をもとに、当てはまりが最もよくなるよう選ばれた直線のことです。具体的な選び方は、残差二乗和の最小化という基準に基づきます。
(Fig1. 広告費(万円)と月次売上(百万円)の散布図・回帰直線・95%信頼区間)
切片と傾きの統計的解釈
傾き $\beta_1$ は、説明変数 $x$ が1単位増加したときの目的変数 $y$ の平均変化量を表します。例えば、$x$ が広告費(万円)、$y$ が月次売上(百万円)であり、推定値 $b_1 = 0.5$ が得られたとします。この場合の解釈は「広告費が1万円増加すると、月次売上は平均0.5百万円増加する」となります。$b_1$ の符号が正であれば $x$ と $y$ は正の方向性を持ち、負であれば負の方向性を持ちます。
切片 $\beta_0$ は、$x = 0$ のときの $y$ の期待値を表します。
$$\mathbb{E}[y \mid x = 0] = \beta_0$$
ただし、$x = 0$ が観測データの範囲外にある場合、切片の実質的な意味は失われます。広告費の例では、観測データが広告費10万円から90万円の範囲で収集されているとすれば、$x = 0$(広告費ゼロ)はモデルの適用外です。この場合、切片 $b_0$ を「広告費ゼロ時の期待売上」として解釈することは根拠を欠きます。これは単回帰モデルの解釈上の重要な注意点です。
パラメータの単位に注意することも実務上不可欠です。$x$ の単位が万円、$y$ の単位が百万円であれば、$b_1$ の単位は「百万円 / 万円」、すなわち「1万円の広告費に対する売上(百万円)の変化量」として読み取ります。
残差とモデルの当てはまり
推定されたモデル $\hat{y}_i = b_0 + b_1 x_i$ から計算される予測値 $\hat{y}_i$ に対し、観測値 $y_i$ との差を残差 $e_i$ と定義します。
$$e_i = y_i – \hat{y}_i$$
散布図上では、残差は各観測点から回帰直線までの縦方向の距離に対応します。$e_i > 0$ は観測値が予測値を上回っている状態(過小予測)を示し、$e_i < 0$ は観測値が予測値を下回っている状態(過大予測)を示します。
モデル全体の当てはまりの悪さを数値化するのが残差二乗和です。
$$\text{RSS} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$
残差二乗和が大きいほどモデルの当てはまりは悪く、小さいほど当てはまりは良いといえます。最小二乗法によって推定された $b_0, b_1$ を用いると、残差の総和は常にゼロになる性質があります。
$$\sum_{i=1}^{n} e_i = 0$$
この性質は残差二乗和の最小化条件から自動的に導かれます。残差の総和がゼロであることは、モデルが観測値を平均的に過小予測も過大予測もしていないことを示します。
(Fig2. 観測値・予測値・残差の関係図(残差を縦矢印で図示))
回帰係数の推定:最小二乗法の考え方
最小二乗法は、残差二乗和を最小にする切片 $b_0$ と傾き $b_1$ の組み合わせを求める推定方法です。推定の目標は次のように定式化されます。
$$\min_{b_0,\, b_1} \sum_{i=1}^{n} (y_i – b_0 – b_1 x_i)^2$$
残差を二乗する理由は2点あります。第1に、正の残差と負の残差が単純な合計で打ち消し合うことを防ぐためです。第2に、絶対値が大きい残差にはより大きなペナルティが課されるため、データから大きく外れた点の影響が強く反映されます。
上記の最小化問題には、データの行列構造から閉形式解(解析解)が一意に存在します。解の具体的な導出手順は後続記事「OLS推定量の数学的詳細」で扱います。
最小二乗推定が適切に機能するための基本的な前提として、誤差項の期待値がゼロであることが必要です。
$$\mathbb{E}[\varepsilon_i] = 0$$
この条件は、$x$ で説明できない部分の平均的な影響がゼロであることを意味します。言い換えると、観測点がモデルの真の直線に対して上下に均等にばらつくことが前提となります。推定量 $b_0, b_1$ は真のパラメータ $\beta_0, \beta_1$ の推定値であり、標本データが異なれば異なる値をとります。母数 $\beta_0, \beta_1$ は固定された定数であるのに対し、推定量 $b_0, b_1$ は標本依存の値として扱います。
(Fig3. OLS推定直線と非最適直線の比較(残差二乗和の違い))
モデルの仮定と外挿の限界
単回帰モデルを適用するには、いくつかの統計的仮定を前提とする必要があります。これらの仮定が成立しない場合、推定量の性質や予測の信頼性に問題が生じます。
線形性の仮定は、目的変数 $y$ と説明変数 $x$ の真の関係が線形に近いことを要求します。真の関係が曲線状や指数的である場合、直線モデルはその関係を正確に記述できず、系統的な当てはまりの誤りが生じます。
等分散性の仮定は、誤差項 $\varepsilon_i$ の分散がすべての観測において一定であることを要求します。
$$\text{Var}(\varepsilon_i) = \sigma^2 \quad \text{(すべての } i \text{ について)}$$
$x$ の値が大きいほど誤差の散らばりも大きくなる場合など、分散が $x$ に依存する状況(不均一分散)では、この仮定は成立しません。
独立性の仮定は、各観測値が互いに独立であることを要求します。時系列データにおける隣接観測値の相関(自己相関)や、空間データにおける近隣効果が存在する場合には、独立性の仮定が成立しないことがあります。
観測されたデータの範囲内での予測を内挿と呼ぶのに対し、観測範囲の外側での予測を外挿と呼びます。外挿領域では線形関係が成立するかどうかの根拠がなく、予測の信頼性は内挿と比較して著しく低下します。
単回帰モデルの主な限界を以下に整理します。
- 真の関係が非線形である場合、単回帰モデルはその関係を適切に記述できません。
- 外れ値が1点存在するだけで、推定された回帰直線の傾きや切片が大きく変化することがあります。
- 観測範囲外への外挿による予測は、範囲内の予測と比べて誤差が増大する傾向があります。
マーケティングデータへの応用例
単回帰分析は、TV広告費やWeb広告費(説明変数)と月次売上(目的変数)の関係を定量化する場面で活用されます。推定された回帰式が $\hat{y} = 2.0 + 0.5x$ であれば、「広告費が1万円増加すると、月次売上は平均0.5百万円増加すると推定される」という解釈が得られます。
この推定結果から、例えば「広告費を現在より20万円増やした場合の月次売上の増分は平均10百万円」という点予測が計算できます。ただし、点予測は不確実性を含む単一の数値です。予測の信頼性を示す指標として、信頼区間と予測区間の区別が重要です。信頼区間は回帰直線そのものの位置(平均応答の推定)に関する不確実性を表し、予測区間は個々の新しい観測値に対する予測の不確実性を表します。予測区間は、個別のデータのばらつきも加わるため、信頼区間よりも常に広くなります。
この分析で注意すべき実務上の限界として、交絡変数の問題があります。季節性・競合他社の活動・製品品質・プロモーションなど、広告費以外の要因が売上に影響を与えている可能性があります。単回帰モデルでは説明変数が1つに限られるため、これらの交絡変数を制御することができません。したがって、推定された $b_1$ を「広告費の因果効果」として解釈することは、交絡変数が適切に制御されていない限り根拠を欠きます。
相関関係と因果関係の区別は、回帰分析の解釈において常に重要です。回帰係数は説明変数と目的変数の間の条件付き平均の変化を記述するものであり、介入(広告費を実際に増加させること)の効果を保証するものではありません。因果効果の推定には、交絡変数の制御や実験デザインなど、回帰分析以外の要素が必要になります。
単回帰分析はピアソンの積率相関係数と密接に関連します。相関係数は $x$ と $y$ の線形関係の方向と強さを $-1$ から $1$ の範囲で表す指標ですが、変数の単位に依存しない無次元量です。また、回帰直線のような予測式を直接与えるものではありません。一方、説明変数が複数必要な場合は重回帰分析に拡張されます。重回帰分析では各説明変数の偏回帰係数が推定され、他の変数を固定したもとでの各説明変数の効果を個別に評価できます。単回帰分析は重回帰分析の特殊な場合(説明変数が1つの場合)として位置づけられます。

