Top 5 This Week

Related Posts

2.10 自己相関(時系列データ)の基本

- 本サイト運営者のサービスの紹介 -


通常の相関分析は、互いに独立して観測された異なる2つの変数(例えば変数 $X$ と変数 $Y$)の間に存在する関係性を定量化します。しかし、時間の経過とともに連続的に観測される「時系列データ(Time Series Data)」を扱う場合、全く別の観点が必要となります。時系列データにおいては、同一の変数における「過去の観測値」と「現在の観測値」の間に相関関係が存在することが頻繁にあります。このように、時間的なずれ(ラグ)を伴う同一変数間の相関を「自己相関(Autocorrelation)」、または系列相関(Serial Correlation)と呼びます。

時系列データの分析、とりわけ将来予測を目的とするモデリングにおいては、データ生成過程の背後にある自己相関構造を正確に把握し、数式化することが極めて重要です。本稿では、自己相関の数理的定義、コレログラムを用いた視覚的評価、および実務上の適用事例について、統計学的な理論に基づいて解説します。

1. 弱定常性の仮定と自己相関の数理的定義

自己相関を数学的に定義するにあたり、対象となる時系列データが「弱定常性(Weak Stationarity)」を満たしていることを仮定します。弱定常性とは、時系列の確率的な性質が時間の推移によって変化しないことを意味し、以下の3つの条件が成立する状態を指します。

  • 任意の時点 $t$ における期待値(平均)が一定であること($E[y_t] = \mu$)。
  • 任意の時点 $t$ における分散が一定であり、有限であること($Var(y_t) = \sigma^2 < \infty$)。
  • 任意の時点 $t$ と時点 $t-k$ の自己共分散が、時点 $t$ には依存せず、時間のずれであるラグ $k$ のみに依存すること。

この仮定のもとで、ラグ $k$ における「自己共分散(Autocovariance)」 $\gamma_k$ は以下の式で定義されます。

$$
\gamma_k = Cov(y_t, y_{t-k}) = E[(y_t – \mu)(y_{t-k} – \mu)]
$$

自己共分散はデータの測定単位(スケール)に依存するため、この値をラグ $0$ の自己共分散(すなわち、時系列データ全体の分散 $\gamma_0 = Var(y_t)$)で除算することにより、$-1$ から $1$ の範囲に標準化します。これが「自己相関係数(Autocorrelation Coefficient)」 $\rho_k$ の定義です。

$$
\rho_k = \frac{\gamma_k}{\gamma_0} = \frac{E[(y_t – \mu)(y_{t-k} – \mu)]}{E[(y_t – \mu)^2]}
$$

ラグ $k=1$ の自己相関係数 $\rho_1$ は、1時点前のデータと現在のデータがどの程度連動しているかを示します。$\rho_1$ が正で1に近い場合、前回の値が高いと今回の値も高くなるという「トレンドの持続性(モメンタム)」が存在することを意味します。

2. コレログラムによる自己相関構造の視覚化

算出した自己相関係数を、横軸にラグ $k$、縦軸に自己相関係数 $\rho_k$ をとってプロットしたグラフを「コレログラム(Correlogram)」または自己相関関数(ACF: Autocorrelation Function)プロットと呼びます。

AR(1)過程で生成した時系列データのACFプロット。ラグごとの自己相関係数を棒グラフ状に表示し、95%信頼区間を点線で描画。

(図1. コレログラム(自己相関関数)の例)

コレログラムを作成することで、時系列データに潜む周期性や、過去の影響がどの程度の期間持続するかを視覚的に特定できます。一般的に、コレログラムには帰無仮説を「$\rho_k = 0$(自己相関なし)」とする統計的検定に基づく信頼区間(通常は95%信頼区間)の境界線が描画されます。プロットされた棒がこの境界線を越えている場合、そのラグにおいて統計的に有意な自己相関が存在すると解釈します。

3. 自己相関と偏自己相関の違い

自己相関関数(ACF)と密接に関連する概念として、「偏自己相関関数(PACF: Partial Autocorrelation Function)」が存在します。時系列モデリング(特にARIMAモデルの次数決定)において、これら2つの指標は異なる役割を果たします。

指標 定義と特徴 主な用途
自己相関 (ACF) 時点 $t$ と時点 $t-k$ の間の全体的な相関を測定する。中間に存在するラグ($t-1, \dots, t-k+1$)がもたらす間接的な影響もすべて含まれる。 移動平均(MA)過程の次数決定。系列の定常性や季節性の確認。
偏自己相関 (PACF) 時点 $t$ と時点 $t-k$ の間に存在する中間ラグの影響を線形回帰によって数学的に取り除き、両者間の「純粋な」相関のみを測定する。 自己回帰(AR)過程の次数決定。過去のデータが現在に与える直接的な影響の特定。

例えば、時点 $t-2$ が時点 $t-1$ に影響を与え、時点 $t-1$ が時点 $t$ に影響を与えているマルコフ連鎖のようなデータ構造の場合、ACFではラグ2でも強い相関が観測されます。しかし、時点 $t-1$ の影響を統制したPACFを計算すると、ラグ2の偏自己相関はゼロに近づきます。これにより、直接的な原因となっているのは1時点前のみであるというデータ生成メカニズムが明らかになります。

ACF(全体的な影響が減衰しながら残る)とPACF(ラグ1でスパイクし以降は切断される)のプロットを横並びで比較。

(図2. ACFとPACFの比較(AR(1)モデル))

4. 自己相関が統計的推測に与える影響

回帰分析において、誤差項に自己相関が存在する場合(系列相関問題)、最小二乗法(OLS)の基本前提である「誤差項の独立性」が破綻します。この状態で通常の回帰モデルを推定すると、推定された回帰係数自体は不偏性を保つものの、分散(標準誤差)が過小評価されるという深刻な問題が生じます。

標準誤差が過小評価されると、t検定の統計量(t値)が過大に計算されるため、本来は無意味な変数であっても「統計的に有意である」と誤って判定してしまう第一種の過誤(偽陽性)のリスクが著しく増大します。これを防ぐためには、ダービン・ワトソン(Durbin-Watson)統計量等を用いて自己相関の有無を検定し、必要に応じて一般化最小二乗法(GLS)や自己回帰モデルへと手法を切り替える必要があります。

5. 実務事例

時系列データの自己相関分析が実世界のビジネスでどのように応用されているか、サプライチェーン管理の事例を用いて解説します。

背景
ある大規模な小売チェーンにおいて、特定カテゴリ(飲料・季節家電など)の商品に関する週次売上データを分析し、在庫の適正化および欠品防止を図るプロジェクトが開始されました。単純な平均値に基づく発注では、需要の急激な変動に対応できず、過剰在庫と販売機会の損失が同時に発生していました。

分析アプローチ
対象商品の過去5年間の週次売上データに対し、定常性を確保するための差分化を行った上で、自己相関関数(ACF)および偏自己相関関数(PACF)を算出し、コレログラムを作成しました。

解釈とアクション
コレログラムを確認した結果、ラグ1(1週前)からラグ3にかけて統計的に有意な偏自己相関が観測されました。また、ACFにおいてラグ52(1年前の同週)に極めて強い正の自己相関が確認されました。
この結果は、当該商品の需要が「直近3週間の販売モメンタム」という短期的要因と、「年次の季節性(シーズナリティ)」という長期的要因の2つによって構成されていることを数理的に示しています。分析チームはこの自己相関構造を説明変数として自己回帰季節移動平均モデル(SARIMAモデル)に組み込みました。過去の自身のデータを自己相関という形で予測モデルの入力値として再利用することで、単なるトレンドの延長線ではない、数理的根拠に基づく精緻な需要予測システムが構築され、サプライチェーン全体の在庫回転率の向上に寄与しました。

ラグ1〜3付近の短期的な相関に加え、ラグ52(1年前)に強い正の相関が表れる季節性(シーズナリティ)を視覚化したコレログラム。

(図3. 週次売上データの自己相関(季節性の検出))

Popular Articles