尺度水準~変数(記述子・特徴量)のレベルを把握しておきましょう~

データ解析では、数字を扱います。ただ数字といっても、いろいろなレベルの数字があります。

たとえば、

  • 電話番号
  • 大学ランキング
  • 摂氏温度 [℃]
  • 絶対温度 [℃]

では、それぞれ数字の印象が違うように感じませんか?数字のレベルが違うのです。下になればなるほど、数字のレベルは高くなります。

数字のレベルには、大きく分けて

  • 名義尺度 (電話番号など)
  • 順序尺度 (大学ランキングなど)
  • 間隔尺度 (摂氏温度[℃] など)
  • 比例尺度 (絶対温度[K] など)

があり、下に行けば行くほど、レベルは高くなります。たとえば、そのままデータ解析の説明変数(記述子・特徴量・入力変数)として用いることができるのは、間隔尺度と比例尺度のみです。

順番に説明します。

名義尺度

電話番号・背番号・受験番号など、ただ分けるために数字を割り当てたものです。

この数字には、値が大きい・小さいといった比較はできませんし、足し算・引き算・かけ算・わり算には意味がありません。

たとえば「方角」・「市区町村」など、数字ではありませんが、同じレベルの変数もあります。「東」は1、「西」は2、「南」は3、「北」は4とすれば、電話番号などと同じ名義尺度の数字として扱えるわけです。

統計量として意味があるのは、頻度だけです。

このレベルの変数は、クラス分類における目的変数として使えるものもありますが、そのままでは説明変数としては利用できません。ただ、工夫すれば使えるようになります。ある変数について、数字ごとに (カテゴリーごとに) 変数を作るわけです。たとえば「方角」について、「東」という変数、「西」という変数、「南」という変数、「北」という変数を作り、当てはまるものに 1、当てはまらないものに 0をいれます。たとえば東のとき、「東」という変数だけ 1 とし、その他の3つの変数は 0 とします。

順序尺度

大学ランキング・売上の順位など、何かの順番を表しますが、間隔には意味はない数字です。1位と2位の差は 1、100位と101位の差も 1 ですが、差が同じとして扱ってよいわけではありません。

この数字は、値が大きい・小さいといった比較はできすが、足し算・引き算・かけ算・わり算には意味がありません。

統計量として意味があるのは、頻度・最頻値・中央値です。

間隔尺度

摂氏温度 [℃]・華氏温度 [°F]・知能指数など、順番を表し、間隔が一定な数字です。しかし、「0」には意味がありません

この数字は、値が大きい・小さいといった比較や、足し算・引き算はできますが、かけ算・わり算には意味がありません。

統計量として、頻度・最頻値・中央値・平均値・分散などいろいろなものに意味があります。

ここまでくると、データ解析の説明変数としてそのまま用いることができるレベルです。

比例尺度

絶対温度 [K]・身長・体重など、間隔尺度であり、「0」にも意味がある数字です。

この数字は、値が大きい・小さいといった比較や、足し算・引き算・かけ算・わり算ができます。

たとえば実験値などを比較するときに、相対誤差を計算することができます。

すべての統計量に意味があります。

以上です。

データ解析を行い、変数を扱うときは、名義尺度・順序尺度・間隔尺度・比例尺度といった数字のレベルに注意するようにしましょう。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました