3.3 分析前のデータクレンジングの極意

分析前のデータクレンジングの極意

相関分析を実行するにあたり、収集した生データをそのまま数式に当てはめて計算することは、分析結果の信頼性を著しく損なう危険な行為です。最も一般的に用いられるピアソンの積率相関係数は、各変数の平均値と分散（および共分散）に基づくパラメトリックな指標であるため、データセット内に潜む不完全な情報に対して非常に敏感に反応します。

本項では、相関分析の精度と妥当性を担保するための必須プロセスである「データクレンジング（データの前処理）」について、その数理的影響と具体的なアプローチを解説します。

欠損値（Missing Values）のメカニズムと処理

実データにおいて、すべての変数が完全に揃っていることは稀です。欠損値が存在する状態で相関分析を行う場合、まずその欠損がどのようなメカニズムで発生しているかを特定する必要があります。統計学において、欠損メカニズムは主に以下の3つに分類されます。

欠損のメカニズム	定義	相関分析への影響と対処
MCAR 完全にランダムな欠損	欠損の発生が、その変数の値や他の変数の値と全く無関係に起きている状態。	データの削除（リストワイズ除去など）を行っても推定値にバイアスは生じない。
MAR ランダムな欠損	欠損の発生が、他の観測されている変数の値に依存している状態。	単純な削除はバイアスを生む危険がある。多重代入法などの統計的補完が推奨される。
MNAR ランダムではない欠損	欠損の発生が、欠損している変数の値そのものに依存している状態（例：所得が低い人ほど所得欄を無回答にする）。	最も厄介な状態。欠損のメカニズム自体をモデリングに組み込む必要がある。

これらの状況を把握するためには、変数のペアごとに相関を計算する前に、データセット全体の欠損状況を視覚的に評価することが不可欠です。データセット全体を行列に見立て、欠損しているセルと欠損していないセルを色分けしたパターンプロットを作成することで、特定の変数に欠損が集中しているか、あるいは複数の変数で同時に欠損が発生しているか（同時欠損のパターン）を直感的に捉えることができます。

（図1. 欠損値の発生パターンプロット）

相関行列算出時の除外方式と非正定値行列問題

欠損値を含むデータから複数変数の相関行列を算出する際、データの除外方法には主に「リストワイズ法（Listwise Deletion）」と「ペアワイズ法（Pairwise Deletion）」の2種類が存在します。

リストワイズ法
一つでも欠損値を含む行（観測データ）をデータセットから完全に削除し、残った完全なデータのみで相関行列を計算します。全ペアでサンプルサイズ $n$ が統一されるため、統計的整合性が保たれますが、データ量が大幅に減少するリスクがあります。
ペアワイズ法
相関を計算する2変数のペアごとに、両方の値が存在するデータのみを用いて計算します。データ量を最大限に活用できますが、ペアごとに計算の基となるサンプルが異なるため、数学的な矛盾が生じる可能性があります。

特に多変量解析を前提とする場合、ペアワイズ法を使用すると、算出された相関行列が「正定値行列（Positive Definite Matrix）」にならないという深刻な問題が発生することがあります。相関行列 $\Sigma$ が正定値でない場合、後続の重回帰分析や主成分分析などの固有値計算においてエラーが発生し、数学的に破綻します。したがって、実務においてはMCARの前提が置ける範囲でのリストワイズ法、または適切な代入法による完全データセットの構築が推奨されます。

計算前の散布図確認の絶対原則

欠損値の処理が完了したとしても、即座に相関係数 $r$ を算出するべきではありません。相関係数は「直線的な関係の強さ」を一つのスカラー値に集約する指標であるため、データの背後にある多様な分布構造を覆い隠してしまいます。計算前に必ず散布図を作成し、以下の点を確認することが不可欠です。

極端な外れ値の存在
たった一つの極端な値（レバレッジの大きい点）が存在するだけで、無相関のデータに強い相関が計算されたり、逆に強い相関が打ち消されたりします。
非線形構造
変数が曲線関係（U字型や指数関数的増加など）を持っている場合、ピアソンの相関係数はゼロに近い値を示します。
異分散性
横軸の値が大きくなるにつれて、縦軸のデータのばらつき（分散）が扇形に広がっていくような構造がないかを確認します。

（図2. 相関係数計算前に確認すべき分布の罠）

【実務事例】製造プロセスにおけるセンサーデータのクレンジング

相関分析前のクレンジング工程が、実務上の意思決定に与える影響を製造業の事例を用いて解説します。

背景
精密機器の組み立てラインにおいて、製品の「最終歩留まり率」と、各製造装置に設置された「圧力センサーの平均値」および「温度センサーの平均値」の相関を分析し、品質低下の原因を特定するプロジェクトが開始されました。

分析アプローチ
取得した1ヶ月分のログデータに対し、そのまま相関行列を計算すると、圧力と歩留まり率の間に負の相関が見られました。しかし、欠損値パターンプロットを作成してデータ構造を確認したところ、特定の深夜帯において温度センサーの値がシステムエラーにより規則的に欠損（MAR状態）していることが判明しました。さらに散布図を確認すると、圧力センサーのデータ内に、通常の稼働範囲を逸脱した「装置の再起動時の異常値」が数点混入していました。

結論
再起動時の外れ値を除外し、温度センサーの欠損部分を前後時間の稼働状態から補完処理（多重代入法）した上で再度相関分析を実行しました。その結果、圧力との相関は消失し、実際には「特定ラインの温度上昇」が歩留まり低下と強い負の相関を持っている（温度が上がると歩留まりが下がる）という正しい関係性が浮かび上がりました。データクレンジングを怠っていれば、無関係な圧力装置の調整に多大な工数を費やす誤った意思決定を下すところでした。

このように、データクレンジングと可視化による分布確認は、相関分析の単なる「準備作業」ではなく、分析の成否を決定づける中核的なプロセスとして位置づける必要があります。

（図3. データクレンジング前後での相関の劇的な変化）

Movies

TV Shows

Music

Celebrity

Scandals

Drama

Lifestyle

Health

Technology

Company