2026年 3月 17日 火曜日

Top 5 This Week

Related Posts

1.11 第3の変数(交絡変数)の見つけ方

- 本サイト運営者のサービスの紹介 -


前項までに、観測データに現れる強い相関関係が、必ずしも直接的な因果関係を意味しないこと、そしてその主要な原因が「第3の変数」すなわち交絡変数の存在にあることを数理的に確認しました。実際のデータ分析において最も困難かつ重要なプロセスは、この目に見えない交絡変数を発見し、その影響を適切に評価・統制することです。本稿では、交絡変数を特定するための理論的条件、視覚的アプローチ、およびドメイン知識を活用した構造的探索手法について解説します。

交絡変数が満たすべき3つの数理的条件

ある変数 $Z$ が、原因変数 $X$ と結果変数 $Y$ の間の交絡変数として機能するためには、統計学および因果推論の枠組みにおいて以下の3つの条件をすべて満たす必要があります。これらの条件を検証することが、交絡変数発見の第一歩となります。

  • 原因変数 $X$ と関連している
    変数 $Z$ の分布が、変数 $X$ の値によって異なる必要があります。数式上、$X$ と $Z$ は独立ではなく、$P(X|Z) \neq P(X)$ が成立します。
  • 結果変数 $Y$ の独立した原因である
    変数 $X$ の影響を除外、あるいは一定に保った状態(統制した状態)においても、変数 $Z$ は変数 $Y$ を変化させる力を持っている必要があります。
  • 因果の経路上に存在しない(媒介変数ではない)
    変数 $Z$ は、$X \rightarrow Z \rightarrow Y$ というように、原因 $X$ が結果 $Y$ を引き起こす「途中経過(媒介変数:Mediator)」であってはなりません。媒介変数を統制してしまうと、本来存在するはずの因果効果まで消し去ってしまう「過剰統制(Over-control)」の誤謬に陥ります。

散布図の層別化による視覚的アプローチ

データセット内に存在する交絡変数の候補を探索する際、最も直感的で有効な手段が「層別化(Stratification)」を用いた散布図の作成です。全体をひとまとめにした散布図では強い相関が見られる場合でも、第3の変数 $Z$ のカテゴリ(例えば、年代、性別、地域、あるいは連続変数を離散化したグループ)ごとにデータポイントを色分けしてプロットすることで、背後に潜む構造を視覚的に分離できます。

散布図の層別化とシンプソンのパラドックス

(図1. 散布図の層別化とシンプソンのパラドックス)

変数 $Z$ によって色分けされた散布図において、全体としては右肩上がりの傾向(正の相関)を示していても、同じ色のグループ内($Z$ を固定した状態)に限定して観察すると、相関が消失して傾きが平坦になる、あるいは逆の負の相関を示す場合があります。グループ内で相関が消失する場合、全体の相関は変数 $Z$ によって生み出された疑似相関であることが強く疑われます。このように、カテゴリごとに色を分ける、あるいは条件ごとにグラフを分割(ファセット化)するアプローチは、探索的データ分析において必須のプロセスです。

有向非巡回グラフ(DAG)を用いた構造的探索

データのみから交絡変数を機械的に特定することには限界があります。真の交絡変数を見つけるためには、対象となるビジネスや物理現象に関する「ドメイン知識(専門知識)」を数理モデルに落とし込む必要があります。このプロセスで強力な枠組みとなるのが、有向非巡回グラフ(DAG: Directed Acyclic Graph)の構築です。

DAGは、変数間の因果の方向を矢印(エッジ)で結び、全体として循環(ループ)を持たないネットワーク構造として現象をモデル化します。分析者は、既知の文献、物理法則、あるいは業務のフローに基づき、変数 $X$ と変数 $Y$ の両方に矢印を向けている(共通の原因となっている)ノード $Z$ を洗い出します。DAGを用いることで、手元のデータセットに含まれていない「未観測の交絡変数」の存在に気付くことができ、追加のデータ収集計画を立案することが可能になります。

交絡変数の構造を示すDAG(有向非巡回グラフ)

(図2. 交絡変数の構造を示すDAG(有向非巡回グラフ))

【事例】実務における交絡変数の探索と特定

データサイエンスの実務において、交絡変数をどのように発見し、解釈を修正していくかについて、2つの領域の事例を用いて解説します。

事例1 流通小売業における価格施策の評価

背景
ある小売チェーンにおいて、特定商品の「販売価格($X$)」と「販売数量($Y$)」の相関分析を行いました。経済学の基本原則に従えば、価格が上がれば数量は減る(負の相関)はずですが、データ上は強い正の相関(価格が高いほど売れている)が観測されました。

分析と問題点
この結果をそのまま受け入れ「さらに値上げすれば売上が伸びる」と判断することは致命的な誤りです。ここで変数探索を行い、各プロットを「販売月」や「イベントの有無」で層別化しました。その結果、「年末の需要期」や「クリスマス」という季節要因(変数 $Z$)が交絡変数であることが判明しました。需要期には定価(高値)で販売され、かつ飛ぶように売れる一方、閑散期には値引きされ、それでも売れないという構造が存在していました。

解決策
季節要因 $Z$ を固定して(同じ月の中だけで)価格と販売数量の散布図を確認すると、当初の想定通り、明確な負の相関が確認されました。交絡変数を特定し、その影響を層別解析や重回帰モデルで統制することで、正しい価格弾力性を算出することができました。

販売価格と数量の関係(季節要因による層別化)

(図3. 販売価格と数量の関係(季節要因による層別化))

事例2 産業保健における労働環境と健康スコアの評価

背景
ある製造業の産業医チームが、従業員の「1日の着座時間($X$)」と「腰痛の重症度スコア($Y$)」の相関分析を行いました。仮説に反して、着座時間が長い従業員ほど腰痛スコアが低い(健康である)という負の相関が見られました。

分析と問題点
業務内容のドメイン知識を持つ現場の管理職と議論し、DAGを構築して要因を探索しました。その結果、「職種($Z$)」という明確な交絡変数が存在することが特定されました。製造ラインの現場作業員(着座時間が極端に短く、重い荷物を持つため腰痛リスクが高い)と、バックオフィスの事務職(着座時間が長く、腰痛リスクが相対的に低い)という2つの異なる母集団が混在していました。

解決策
職種を層別化変数として設定し、事務職のみ、あるいは現場作業員のみにデータを分割して再評価しました。その結果、同じ職種内においては、着座時間の長さと腰痛スコアの悪化の間に正の相関が確認されました。表面的な相関関係に惑わされず、第3の変数を発見することで、職種ごとに異なる適切なエルゴノミクス(人間工学)的介入策の立案に繋げることができました。

着座時間と腰痛スコアの関係(職種による層別化)

(図4. 着座時間と腰痛スコアの関係(職種による層別化))

交絡変数の発見は、統計的アルゴリズムの実行だけでは完結しません。変数の定義を深く理解し、散布図の層別化による視覚的な異常検知を行い、さらには業務のドメイン知識を統合して事象の構造をモデリングするという、多面的なアプローチが要求されます。

Popular Articles