線形回帰分析(Linear Regression Analysis)は、変数の関係を数式でモデル化し、ある変数の値から別の変数の値を予測・説明するための統計手法です。データサイエンスや機械学習において最も基本的かつ頻繁に使用される「教師あり学習」の回帰タスクに位置づけられます。
分析には、予測の手がかりとなる「説明変数(独立変数:$x$)」と、予測したい「目的変数(従属変数:$y$)」を用います。説明変数が1つの場合を単回帰分析(Simple Linear Regression)、2つ以上の場合を重回帰分析(Multiple Linear Regression)と呼びます。
線形回帰分析の目的と位置づけ
線形回帰の主な目的は、以下の2点に大別されます。
- 予測(Prediction):新規のデータに対して、目的変数がどのような値になるかを予測する(例:広告費から来月の売上を予測する)。
- 説明・要因分析(Explanation):どの説明変数が目的変数にどの程度影響を与えているかを明らかにする(例:顧客満足度に最も影響するのは「価格」か「品質」かを知る)。
機械学習の文脈では「予測精度」が重視されますが、統計学的な文脈ではモデルの「解釈性」が重視されます。線形回帰はこの両方のバランスが良く、ビジネス現場での意思決定根拠としても非常に強力なツールです。
定義式
単回帰分析のモデル式
単回帰分析は、1つの説明変数 $x$ と目的変数 $y$ の関係を直線(1次関数)で近似します。
$$
y_i = \beta_0 + \beta_1 x_i + \epsilon_i
$$
ここで、
- $y_i$:$i$番目の観測データの目的変数(実測値)
- $x_i$:$i$番目の観測データの説明変数
- $\beta_0$:切片(定数項)。$x=0$ のときの $y$ の期待値。
- $\beta_1$:回帰係数(傾き)。$x$ が1単位増加したときの $y$ の変化量。
- $\epsilon_i$:誤差項(残差)。モデルでは説明しきれない確率的な変動。
重回帰分析のモデル式
重回帰分析は、複数の説明変数 $x_1, x_2, …, x_p$ を用いて $y$ を予測します。
$$
y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i
$$
ここで、$\beta_1, \beta_2, \dots, \beta_p$ は偏回帰係数と呼ばれます。これは「他の変数を固定した状態で、その変数が1単位増加したときに $y$ がどれだけ変化するか」を示しており、各変数の純粋な影響力を評価する指標となります。
パラメータ推定法:最小二乗法
最適な回帰係数($\beta$)を求めるために、一般的に最小二乗法(Ordinary Least Squares: OLS)が用いられます。
これは、観測値 $y_i$ とモデルによる予測値 $\hat{y}_i$ との差(残差)の二乗和を最小にするようにパラメータを決定する方法です。
$$
\sum_{i=1}^{N} (y_i – \hat{y}_i)^2 \quad \to \quad \text{最小化}
$$
この手法により、データ全体の傾向を最もよく表す直線(または超平面)を導き出します。
前提条件
線形回帰モデルが統計的に信頼できる結果を出すためには、以下の前提条件(ガウス・マルコフの仮定など)が満たされている必要があります。
- 線形性:説明変数と目的変数の関係が線形であること。
- 誤差の正規性:残差が正規分布に従うこと(推測統計を行う場合に重要)。
- 誤差の等分散性:残差のばらつきが均一であること。予測値の大きさによってばらつきが変わらないこと。
- 独立性:観測データ同士が互いに独立であること(時系列データなどで自己相関がないこと)。
- 多重共線性がないこと:重回帰分析において、説明変数同士の相関が高すぎないこと(これについては次項6.2で詳述します)。
モデルの評価指標
構築した回帰モデルの良さを評価するために、以下の指標が主に用いられます。
決定係数($R^2$:R-squared)
モデルがデータの変動をどれだけ説明できているかを示す指標で、0から1の範囲を取ります。1に近いほど当てはまりが良いことを意味します。
$$
R^2 = 1 – \frac{\sum (y_i – \hat{y}_i)^2}{\sum (y_i – \bar{y})^2}
$$
自由度調整済み決定係数(Adjusted $R^2$)
通常の決定係数は、説明変数の数が増えるだけで値が上昇してしまう性質があります。重回帰分析では、変数の数によるペナルティを考慮した「自由度調整済み決定係数」を確認することが重要です。
偏回帰係数の有意性(t検定)
各説明変数の係数 $\beta$ が統計的に0ではない(=本当に影響がある)かをt検定で確認します。p値が0.05未満であれば、その変数は目的変数に対して有意な影響を持つと判断されます。
実例
実例1:広告費と売上の単回帰分析
ある小売店で、Web広告費(万円)と売上(万円)の関係を分析し、以下のモデル式が得られたとします。
$$
\text{売上} = 100 + 5.2 \times \text{広告費}
$$
- 切片(100):広告費が0円でも、100万円の基礎売上が見込めることを意味します。
- 回帰係数(5.2):広告費を1万円増やすごとに、売上が平均して5.2万円増加することを意味します。
決定係数 $R^2 = 0.85$ であれば、売上の変動の85%が広告費で説明できる、非常に精度の高いモデルといえます。
実例2:マンション価格の重回帰分析
次に、マンション価格(千万円)を予測するために、「専有面積($m^2$)」「駅徒歩分数(分)」「築年数(年)」の3つの変数を用いて重回帰分析を行いました。
$$
\text{価格} = -10 + 0.8 \times \text{面積} – 1.5 \times \text{徒歩} – 0.5 \times \text{築年数}
$$
- 面積(+0.8):他の条件が同じなら、面積が$1m^2$広くなるごとに価格は80万円上がります。
- 徒歩(-1.5):他の条件が同じなら、駅から1分遠くなるごとに価格は150万円下がります。
- 築年数(-0.5):他の条件が同じなら、1年古くなるごとに価格は50万円下がります。
このように、重回帰分析では複数の要因が絡み合う中で、それぞれの変数が持つ純粋な影響力を数値化できる点が大きな強みです。
線形回帰分析の利点
- 解釈が容易:「Xが1増えればYがこれだけ増える」という説明が可能で、ビジネス現場での納得感を得やすい。
- 計算コストが低い:アルゴリズムが単純であり、大規模なデータでも高速に計算が可能。
- 基礎としての重要性:より高度なモデル(一般化線形モデルやニューラルネットワークなど)の基礎となる理論を含んでいる。
線形回帰分析の限界と注意点
- 線形性の仮定:変数間の関係が「直線的」であると仮定しているため、U字型の関係などの複雑な非線形パターンは捉えられません(対処法:多項式回帰やGAMなど)。
- 外れ値に弱い:最小二乗法は誤差を二乗するため、極端な外れ値の影響を強く受け、回帰直線が大きく歪むことがあります。
- 因果関係の証明ではない:回帰分析でわかるのはあくまで「相関関係」に基づいた予測式です。真の因果関係(広告を打ったから売上が伸びたのか)を証明するには、ドメイン知識や因果推論のアプローチが必要です。
他の回帰手法との比較
| 手法 | 適用データ | 特徴 | 主な用途 |
|---|---|---|---|
| 線形回帰 | 量的変数 | 直線的な関係を仮定。解釈性が高い。 | 売上予測、価格推定 |
| ロジスティック回帰 | 質的変数(2値) | 確率を予測する(0~1)。S字カーブ。 | 購入/非購入予測、解約率 |
| ポアソン回帰 | カウントデータ | 0以上の整数(回数)を扱う。 | 来店人数、故障回数予測 |
| Ridge/Lasso回帰 | 量的変数 | 正則化項を加え、過学習を防ぐ。 | 特徴量選択、汎化性能向上 |
まとめ
線形回帰と重回帰分析は、データ分析において最も基本的でありながら、強力な説明力を持つ手法です。単に数値を予測するだけでなく、係数の大きさを通じて「どの要因が重要か」を定量的に評価できる点が、意思決定の現場で重宝される理由です。
しかし、単にソフトウェアで計算するだけでなく、残差プロットによるモデル診断や、$R^2$による当てはまりの確認、そして多重共線性への配慮など、正しい手順でモデルの妥当性を検証することが、誤った結論を防ぐために不可欠です。

