2026年 4月 12日 日曜日

Top 5 This Week

Related Posts

1.9 散布図パターンの読み取り

- 本サイト運営者のサービスの紹介 -


これまでの項において、ピアソンの積率相関係数などの要約統計量が、2変数間の直線的な関係性を定量化する上で有用であることを学習しました。しかし、要約統計量はデータの全体像を単一のスカラー値に圧縮する性質上、データの背後にある生成過程(Data Generating Process)や局所的な構造に関する多くの情報を欠落させます。散布図を精査することは、変数 $X$ と $Y$ の同時確率分布 $P(X, Y)$ の形状を視覚的に復元し、相関係数だけでは捉えきれないデータの真の姿を浮き彫りにするための必須プロセスです。

本項では、散布図上に現れる典型的なパターンを数学的・統計的な観点から分類し、それぞれの形状が示唆するデータ構造の解釈方法について詳述します。

1. 散布図の典型的なパターンと背後にある数理モデル

散布図を評価する際は、単に「右肩上がりか、右肩下がりか」を確認するだけでなく、データのばらつき方(分散の均一性)や曲率、あるいは密度の偏りに着目する必要があります。以下に、観測される主要なパターンと、それが示唆する数理的な状態を整理します。

散布図の視覚的パターン 統計学的な呼称・状態 数理的な特徴と想定されるモデル
一定の幅を持った直線的な帯状の分布 線形関係および等分散性(Homoscedasticity) 誤差項の分散が $X$ の値に依存せず一定($Var(\epsilon|X) = \sigma^2$)。ピアソンの相関係数が最も正確に関係性を表現できる状態です。
Xの増加に伴い、Yのばらつきが扇形に拡大(または縮小)する分布 不等分散性(Heteroscedasticity) 誤差項の分散が $X$ の関数となっている($Var(\epsilon|X) = h(X)$)。相関係数の推定値自体は計算可能ですが、予測区間が変動するため線形回帰の適用には対数変換などが必要です。
U字型、逆U字型、または指数関数的な曲線を描く分布 非線形関係(Non-linear Relationship) $Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon$ のような多項式モデルや非線形モデルが適合します。相関係数 $r$ はゼロに近づく傾向があります。
空間内に複数の密集した島(グループ)が存在する分布 クラスタ構造(混合分布 / 潜在変数の存在) 複数の確率分布が混ざり合った混合正規分布(GMM)などからデータが生成されています。背後に観測されていないカテゴリ変数(交絡変数)の存在が強く疑われます。

2. 線形パターンと等分散性・不等分散性の判別

散布図全体にわたってデータが直線的なトレンドを示している場合、まず確認すべきは「ばらつきの均一性」です。

等分散性と不等分散性の比較

(図1. 等分散性と不等分散性の比較)

確率変数 $Y$ が $X$ の線形関数として $Y = \beta_0 + \beta_1 X + \epsilon$ と表されるとき、等分散性(Homoscedasticity)が成立していれば、散布図上のデータポイントは回帰直線の周囲に一定の幅(チューブ状)で分布します。この状態であれば、ピアソンの積率相関係数はデータの関係性を代表する指標として極めて信頼性が高くなります。

一方、$X$ の値が大きくなるにつれて $Y$ のばらつき(縦方向の散らばり)が扇形に広がっていくようなパターンが見られる場合、これは不等分散性(Heteroscedasticity)を示しています。例えば、「企業の売上高($X$)」と「研究開発費($Y$)」の関係において、規模の小さな企業は研究開発費の額もそのばらつきも小さいですが、大企業になるほど積極的な投資を行う企業とそうでない企業の差が激しくなり、分散が拡大します。このようなデータに対しては、変数に自然対数変換($\log(X), \log(Y)$)を施すことで等分散化を図り、相対的な変化率(弾力性)としての相関を評価するアプローチがとられます。

3. 非線形パターン(U字型・逆U字型)の数理的背景

散布図が放物線などの曲線を描いている場合、変数間には確固たる法則性が存在しているにもかかわらず、線形関係を前提とする相関係数 $r$ は非常に低い値(ゼロ付近)を算出します。

非線形関係(逆U字型)の構造

(図2. 非線形関係(逆U字型)の構造)

この現象は、数学的な直交性によって説明されます。標準化された変数 $X$(平均0)があり、$Y = X^2$ という完全な二次関数の関係があると仮定します。このとき、$X$ と $Y$ の共分散は以下のようになります。

$$
Cov(X, Y) = E[XY] – E[X]E[Y] = E[X^3] – E[X]E[X^2]
$$

もし $X$ が標準正規分布などの対称な分布に従う場合、奇数次のモーメントである $E[X^3]$ は $0$ となります。また $E[X] = 0$ であるため、結果として $Cov(X, Y) = 0$ となり、完全な従属関係にあるにもかかわらず相関係数は $0$ と計算されてしまいます。

散布図上でU字型や逆U字型のパターンを発見した場合は、直ちに相関分析(線形)から離れ、$Y = \beta_0 + \beta_1 X + \beta_2 X^2$ といった多項式回帰モデルの適用や、スピアマンの順位相関係数(単調増加・単調減少の評価)への切り替え、あるいはデータを曲線の頂点で分割して区間ごとに相関を計算するといった手法を選択する必要があります。

4. クラスタ(群れ)パターンの認識と潜在変数の発見

散布図上に明確に分離された複数の密集地帯(クラスタ)が観察される場合、それは単一の母集団から抽出されたデータではなく、異なる特性を持つ複数の部分母集団が混在していることを強く示唆しています。数学的には、データの同時確率密度 $p(x, y)$ が複数の分布の重み付き和(混合モデル)で表される状態です。

$$
p(x, y) = \sum_{k=1}^{K} \pi_k f_k(x, y)
$$

(ここで、$K$ はクラスタ数、$\pi_k$ は各クラスタの混合比率、$f_k$ は各クラスタの確率密度関数を表します。)

クラスタ構造と疑似的な負の相関

(図3. クラスタ構造と疑似的な負の相関)

クラスタ構造が見られる状態でデータ全体を一括して相関係数を計算することは、誤った解釈を招く危険性が極めて高い行為です。全体で見ると正の相関があるように見えても、各クラスタの内部では無相関であったり、逆に負の相関を持っていたりすることがあります。散布図からクラスタ構造を読み取った場合は、その分離を引き起こしている「第3の変数(カテゴリ変数:性別、地域、機械の号機など)」を特定し、データを層別化(層化)した上で、それぞれのグループごとに相関分析を実行しなければなりません。

5. 実務事例1 製造業における最適条件の特定(非線形パターン)

背景
ある化学素材メーカーの製造プロセスにおいて、反応炉の「設定温度($X$)」が製品の「歩留まり率($Y$:良品の割合)」に与える影響を評価し、生産効率を最大化する条件を特定するプロジェクトが実施されました。

分析プロセスと解釈
過去の稼働データ1000件を取得し、相関係数を計算したところ $r = 0.05$ となり、一見すると温度と歩留まり率には関係がない(無相関である)という結論が導かれそうになりました。しかし、同時に作成した散布図を確認すると、データは明確な「逆U字型」のパターンを描いていました。

これは、温度が低すぎる場合は化学反応が十分に進行せず歩留まりが低下し、逆に温度が高すぎる場合は副反応(熱劣化)が起きて歩留まりが低下する、という化学工学的な現象を正確に反映したものでした。散布図のパターンを視覚的に読み取ったことで相関係数の罠を回避でき、逆U字の頂点に相当する温度帯(最適操作条件)を特定し、歩留まり率を大幅に向上させることに成功しました。

6. 実務事例2 マーケティングにおける顧客セグメンテーション(クラスタパターン)

背景
ある小売チェーン企業において、顧客ロイヤルティを高めるための施策を立案するべく、顧客ごとの「年間来店回数($X$)」と「1回あたりの平均購買単価($Y$)」の関係性を分析しました。

分析プロセスと解釈
全顧客データを用いて散布図を作成したところ、右肩下がりの線形トレンドに加えて、大きく2つの密集したグループ(クラスタ)が存在することが視覚的に確認されました。

  • グループA:来店回数は少ないが(年1〜2回)、平均購買単価が極めて高い(高額家電などを購入する層)。
  • グループB:来店回数は非常に多いが(週1回以上)、平均購買単価が低い(日用品や食料品をこまめに購入する層)。

全体の相関係数を計算すると負の相関(来店回数が増えるほど単価が下がる)となりますが、この散布図のパターンは「顧客が2つの全く異なる購買行動モデルを持っている」ことを示しています。この視覚的洞察に基づき、データ分析チームは全体を一つのモデルで評価することをやめ、クラスタリング手法を用いて顧客をセグメント化しました。その結果、グループAに対しては高単価商品のクロスセル提案、グループBに対しては来店ポイントの付与という、それぞれの層に最適化されたマーケティング施策を展開することが可能となりました。

まとめ

散布図は、単なるデータのプロットツールではなく、データの背後に潜む確率分布の構造や、変数間の複雑な力学を解読するための「視覚的な診断装置」です。等分散性の崩れ、非線形構造、クラスタの存在といったパターンを正確に読み取ることは、誤った要約統計量による意思決定のミスを防ぐ唯一の防波堤となります。相関分析を行う際は、いかなる場合であっても計算機による相関係数の算出と散布図の視覚的評価を不可分な一対のアプローチとして実行する必要があります。

Popular Articles