2026年 2月 25日 水曜日

Top 5 This Week

Related Posts

1.2 変数の種類と尺度水準

統計分析を行う上で、データの性質を正しく理解することは不可欠です。データの尺度水準(どのような種類の測定値なのかを示す)は、適用可能な分析手法を決定する上で最も基本的な要素となります。データは、その性質に応じて量的変数と質的変数に大別されます。この詳細な理解は、データ分析の初期段階で適切な手法を選択し、誤った結論を避けるために極めて重要です。

量的変数(Quantitative Variables)

量的変数は、数値で表すことができ、その数値が量的な意味を持つ変数です。例えば、売上高、販売個数、身長、体重などがこれに該当します。これらの変数は、数学的な計算が可能であり、平均(すべての値を足して個数で割った値)、中央値(値を小さい順に並べたときの真ん中の値)、分散(データのばらつきを示す指標)、標準偏差(分散の平方根で、ばらつきの程度を示す)といった記述統計量を算出することができます。量的変数はさらに「間隔尺度」と「比例尺度」に分類されます。

間隔尺度(Interval Scale)

間隔尺度は、数値の間隔に意味がある尺度です。つまり、「10」と「20」の間隔と、「30」と「40」の間隔は等しくなります。しかし、この尺度には絶対的なゼロ点(完全に何もない状態を表す基準点)が存在しないため、数値の比率には意味がありません。

<間隔尺度の例>

  • 気温(摂氏・華氏):20℃は10℃よりも10℃高いですが、10℃の2倍の熱さではありません。なぜなら、0℃が「熱がない」ことを意味する絶対的な基準点ではないからです。
  • 西暦:西暦2000年は西暦1000年の2倍の時間を経ていません。

このため、間隔尺度では足し算・引き算は可能ですが、掛け算・割り算や比率を用いた分析は適切ではありません。

比例尺度(Ratio Scale)

比例尺度は、絶対的なゼロ点(原点)が存在し、数値の比率に意味がある最も厳格な尺度です。身長、体重、回数、金額、月齢などがこれに該当します。

<比例尺度の例>

  • 身長:身長が180cmの人は90cmの人のちょうど2倍の身長であると言えます。
  • 売上高:売上高が0円は「売上がない」という状態を明確に意味します。

この尺度では、すべての数学的操作(足し算・引き算・掛け算・割り算)が有効であり、最も柔軟な分析が可能となります。

質的変数(Qualitative Variables)

質的変数は、数量化できないカテゴリーや属性で表される変数です。例えば、性別(男性/女性)、購入の有無(はい/いいえ)、国籍、続柄などが含まれます。これらの変数は、そのカテゴリー自体に意味があり、数値を割り当てたとしても、その数値に数学的な意味はありません。質的変数はさらに「名義尺度」と「順序尺度」に分類されます。

名義尺度(Nominal Scale)

名義尺度は、カテゴリー間に順序や大小関係がない尺度です。単なる分類やラベル付けとして機能します。

<名義尺度の例>

  • 性別(男性/女性):どちらが優れているといった順序はなく、単に区別するための情報です。
  • 血液型(A型/B型/O型/AB型):どの血液型が「上位」ということはありません。
  • 国籍、婚姻状況 なども名義尺度に分類されます。

この尺度では、カテゴリーの数を数えたり、最も頻繁に出現するカテゴリー(最頻値)を求めることしかできません。平均値を計算しても意味がなく、無意味な結論につながります。

順序尺度(Ordinal Scale)

順序尺度は、カテゴリー間に明確な順序関係が存在するが、その間隔に意味がない尺度です。

<順序尺度の例>

  • 満足度調査:「不満」「普通」「満足」の3段階で評価する場合、満足が普通よりも良いことはわかりますが、「満足」と「普通」の間隔が「普通」と「不満」の間隔と等しいかどうかは不明です。
  • 学歴(高卒/大卒/院卒):順序はありますが、各段階の差は均等ではありません。
  • 商品のランキング、重症度(軽度/中等度/重度)なども該当します。

この尺度では、中央値や最頻値を算出することは可能ですが、平均値は計算すべきではありません。順序尺度を用いることで、グループ間の順序関係を比較するノンパラメトリック検定(データの分布を仮定しない統計手法)が可能となります。

なぜ尺度水準の理解が重要なのか

変数の尺度水準を正しく見極めることは、統計分析の第一歩であり、その後のプロセス全体に影響を与えます。間違った尺度水準に基づいて分析を行うと、以下のような問題が生じます。

不適切な統計手法の選択

例えば、名義尺度データ(血液型など)に対して平均値を計算したり、順序尺度データ(満足度など)に対してt検定を行ったりすると、結果が意味をなさなくなり、誤った結論を導き出す可能性があります。

結論の過大解釈

間隔尺度データ(例:心理テストのスコア)の結果を、あたかも比例尺度であるかのように比率で解釈してしまう(例:「心理テストのスコアが2倍になった」)と、不正確な主張につながります。

また、統計手法の多くは、特定の尺度水準の変数を前提としています。例えば、線形回帰分析(直線的な関係を調べる手法)では、目的変数(結果を表す変数)に間隔尺度や比例尺度の量的変数を使用することが一般的です。一方、ロジスティック回帰分析(確率を予測する手法)は、目的変数に名義尺度や順序尺度の質的変数(例:購入の有無)を使用します。

尺度水準と適用可能な統計手法のまとめ

尺度水準 性質 主な例
名義尺度 分類・区別のみ。順序なし 性別、血液型、国籍
順序尺度 順序・大小関係あり。間隔は不均一 満足度、ランキング、学歴
間隔尺度 順序・間隔に意味あり。絶対ゼロなし 気温、西暦、偏差値
比例尺度 順序・間隔・比率に意味あり。絶対ゼロあり 身長、体重、年齢、売上

まとめ

データの尺度水準は、単なる形式的な分類ではなく、そのデータからどのような情報が引き出せるか、どのような分析が妥当かを決定する「鍵」です。分析の目的(例えば、グループ間の違いを検証したいのか、変数の関係性を予測したいのか)と、変数の尺度水準を照らし合わせることで、最適な統計手法への道筋が見えてきます。適切な尺度水準の理解により、データから正確で信頼できる結論を導き出すことができるのです。

Popular Articles