多変量データの変数間関係を直感的に把握するため、相関行列の数値を色の濃淡で表現した「相関ヒートマップ」が広く用いられます。変数の数が数十、数百に及ぶ大規模なデータセットにおいて、数値の羅列から意味のあるパターンを抽出することは極めて困難ですが、ヒートマップを用いることで、データの全体構造を視覚的かつ効率的に解釈することが可能になります。
色の濃淡と色相が示す意味
相関ヒートマップを正しく解釈するための基本は、カラーパレットのルールを理解することです。一般的に、相関係数 $r$ の値は以下のような規則に従ってマッピングされます。
- 色相(Hue)
正の相関($r > 0$)と負の相関($r < 0$)を対照的な色で表現します。暖色(赤やオレンジ)を正の相関に、寒色(青や緑)を負の相関に割り当てる配色が標準的です。 - 彩度と明度(Saturation & Lightness)
相関係数の絶対値 $|r|$ の大きさを表します。絶対値が $1$ に近い(相関が強い)ほど色が濃く鮮やかになり、絶対値が $0$ に近い(無相関)ほど白やグレーといった薄い色で表現されます。
ヒートマップを観察する際は、まず「最も色が濃い領域(赤および青)」に視線を向けます。これらのセルは、変数が互いに強く連動している箇所を示しており、予測モデルの特徴量選択や、データに潜む構造的要因を特定するための重要な手がかりとなります。
階層的クラスタリングによるパターンの顕在化
データの列順(アルファベット順やアンケートの質問順など)に沿って作成された初期状態のヒートマップは、多くの場合、濃い色がモザイク状に散らばり、全体像の把握が難しくなります。実務において推奨されるアプローチは、「階層的クラスタリング(Hierarchical Clustering)」を用いて変数の並び順を最適化することです。
これは、類似した相関パターンを持つ変数同士が隣接するように、行列の行と列を自動的に再配置する計算手法です。クラスタリングを適用すると、対角線上に同色のブロック(相関が強い変数のグループ)が形成され、データが持つ潜在的なグループ構造が浮き彫りになります。
| 変数 | Q1 | Q4 | Q2 | Q5 | Q3 |
|---|---|---|---|---|---|
| Q1 | 1.00 | 0.85 | 0.10 | 0.05 | -0.30 |
| Q4 | 0.85 | 1.00 | 0.15 | 0.12 | -0.25 |
| Q2 | 0.10 | 0.15 | 1.00 | 0.78 | 0.05 |
| Q5 | 0.05 | 0.12 | 0.78 | 1.00 | 0.02 |
| Q3 | -0.30 | -0.25 | 0.05 | 0.02 | 1.00 |
※上図のように並び替えることで、左上のブロック(Q1とQ4)と中央のブロック(Q2とQ5)がそれぞれ強い関係性を持つクラスタであることが一目で確認できます。
(図1. 階層的クラスタリング適用後の相関ヒートマップ)
実務事例 従業員エンゲージメント調査における課題特定
背景
ある企業の人事部門において、全社員を対象とした従業員エンゲージメント調査(全30問の5段階評価)が実施されました。目的は、離職意向に影響を与える主要な組織課題を抽出し、具体的な改善施策を立案することです。
分析と問題点
30問の回答データを用いて相関行列を計算し、初期状態のヒートマップを描画しました。しかし、質問順に並んだマトリクスは赤や青のセルが不規則に散乱しており、「どの質問項目が互いに連動しているのか」「どの要素が中核的な課題なのか」を読み取ることができませんでした。
(図2. 初期状態の相関ヒートマップ(質問順))
解決策
相関行列に対して階層的クラスタリングを適用し、ヒートマップの行と列を再配置しました。その結果、対角線上に大きく3つの濃い赤色のブロック(強い正の相関を持つ質問群)が現れました。
各ブロックに含まれる質問内容を確認すると、それぞれ「業務負荷と適正な評価に関する不満」「上司とのコミュニケーション不足」「経営ビジョンへの共感の欠如」という共通のテーマを持っていることが判明しました。さらに、目的変数である「離職意向」との相関をヒートマップの特定の列から確認したところ、「上司とのコミュニケーション不足」ブロックに属する質問群が最も強い正の相関を示していました。
このように、単なる数値の表を階層的に並び替えたヒートマップへと変換することで、個別の質問項目ではなく、背後にある「概念的な課題の塊」を特定できるようになります。これは、効果的な施策の優先順位付けを行うための強力なプロセスとなります。

