たまにクラス分類 (classification) とクラスタリング (clustering) を混同する人がいますが、クラス分類とクラスタリングとは全く別物です。逆の意味で使ってしまうことのないようにするためにも、それぞれの意味合いを押さえておきましょう。
クラス分類 (classification)
クラス分類は、事前にクラスが割り当てられたサンプルを、説明変数 (入力変数・記述子・特徴量) の空間において、クラス (class) ごとに分類することです。ざっくりというと、クラスの間に境界線を引くわけです。境界線を引いてしまえば、新しいサンプルのクラスを推定することができますが、境界線を引くためには、最初にいくつかのサンプルについてクラスに関する情報が必要になります。たとえば、この化合物は薬である (クラスA)、この化合物は薬でない (クラスB) といった情報です。
クラスが2つだけのときは、2クラス分類といい、クラスが3つ以上になると、多クラス分類といいます。
厳密には異なりますが、クラス分類とは判別分析のことです。回帰分析と同じ、教師あり学習の仲間です。
クラスタリング (clustering)
一方、クラスタリングはサンプルを塊 (かたまり, クラスター, cluster) ごとに分割するとしたら、どのサンプルとどのサンプルが同じクラスターに属するか判断することです。クラス (class) のような情報はサンプルに必要ありません。サンプル間の類似度 (どのサンプルとどのサンプルがどれくらい似ているか) の情報だけで、クラスターに分けます。
クラスタリングは、可視化・見える化と同じで、教師なし学習の仲間です。
まとめ
最後にクラス分類とクラスタリングの特徴を以下にまとめます
クラス分類 (classification)
- クラス (class)
- 教師あり学習
- サンプルごとのクラスが必要
- 2つのクラスの分類が2クラス分類、3つ以上のクラスの分類が多クラス分類
クラスタリング (clustering)
- クラスター (cluster; 日本語訳…塊)
- 教師なし学習
- サンプルごとのクラスは不必要
- クラスターの数は、事前に決めなければならないことが多い
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。