データ解析では、数字を扱います。ただ数字といっても、いろいろなレベルの数字があります。
たとえば、
- 電話番号
- 大学ランキング
- 摂氏温度 [℃]
- 絶対温度 [℃]
では、それぞれ数字の印象が違うように感じませんか?数字のレベルが違うのです。下になればなるほど、数字のレベルは高くなります。
数字のレベルには、大きく分けて
- 名義尺度 (電話番号など)
- 順序尺度 (大学ランキングなど)
- 間隔尺度 (摂氏温度[℃] など)
- 比例尺度 (絶対温度[K] など)
があり、下に行けば行くほど、レベルは高くなります。たとえば、そのままデータ解析の説明変数(記述子・特徴量・入力変数)として用いることができるのは、間隔尺度と比例尺度のみです。
順番に説明します。
名義尺度
電話番号・背番号・受験番号など、ただ分けるために数字を割り当てたものです。
この数字には、値が大きい・小さいといった比較はできませんし、足し算・引き算・かけ算・わり算には意味がありません。
たとえば「方角」・「市区町村」など、数字ではありませんが、同じレベルの変数もあります。「東」は1、「西」は2、「南」は3、「北」は4とすれば、電話番号などと同じ名義尺度の数字として扱えるわけです。
統計量として意味があるのは、頻度だけです。
このレベルの変数は、クラス分類における目的変数として使えるものもありますが、そのままでは説明変数としては利用できません。ただ、工夫すれば使えるようになります。ある変数について、数字ごとに (カテゴリーごとに) 変数を作るわけです。たとえば「方角」について、「東」という変数、「西」という変数、「南」という変数、「北」という変数を作り、当てはまるものに 1、当てはまらないものに 0をいれます。たとえば東のとき、「東」という変数だけ 1 とし、その他の3つの変数は 0 とします。
順序尺度
大学ランキング・売上の順位など、何かの順番を表しますが、間隔には意味はない数字です。1位と2位の差は 1、100位と101位の差も 1 ですが、差が同じとして扱ってよいわけではありません。
この数字は、値が大きい・小さいといった比較はできすが、足し算・引き算・かけ算・わり算には意味がありません。
統計量として意味があるのは、頻度・最頻値・中央値です。
間隔尺度
摂氏温度 [℃]・華氏温度 [°F]・知能指数など、順番を表し、間隔が一定な数字です。しかし、「0」には意味がありません。
この数字は、値が大きい・小さいといった比較や、足し算・引き算はできますが、かけ算・わり算には意味がありません。
統計量として、頻度・最頻値・中央値・平均値・分散などいろいろなものに意味があります。
ここまでくると、データ解析の説明変数としてそのまま用いることができるレベルです。
比例尺度
絶対温度 [K]・身長・体重など、間隔尺度であり、「0」にも意味がある数字です。
この数字は、値が大きい・小さいといった比較や、足し算・引き算・かけ算・わり算ができます。
たとえば実験値などを比較するときに、相対誤差を計算することができます。
すべての統計量に意味があります。
以上です。
データ解析を行い、変数を扱うときは、名義尺度・順序尺度・間隔尺度・比例尺度といった数字のレベルに注意するようにしましょう。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。