分子設計・材料設計・プロセス設計において、説明変数 (分子の特徴量・合成条件・製造条件・プロセス条件など) x と目的変数 (物性・活性・特性など) y の間で、データセットを用いて数理モデル y = f(x) を構築したり、構築されたモデルを用いて x の値から y の値を推定したり、y が目標値になる x の値を設計したりします。このように教師あり学習においては、データセットから一つの形式知であるモデルを得ることができますし、モデルを解析したり解釈したりして x と y の間の関係を解明することができます。データセットを解析・機械学習することで、データセットに関連する知識を得ることが可能です。
一方で、x のデータセットしかないときに、教師なし学習をすることがあります。データセットの見える化・可視化やクラスタリングなどです。この教師なし学習は、やっただけではデータセットに関する知識は得られませんので注意しましょう。
データセットの可視化・見える化によって、多変量 (多次元) のデータセットを二次元平面上で確認できます。二次元平面上で近い距離にあるサンプルや、近い距離にないサンプルを確認します。ただ、機械学習だけでできることはここまでです。二次元平面上のデータセットをどう解釈するかは、人や人が事前に持っていた知識・知見に基づいて行われる必要があります。人が解釈しなければ、二次元平面上の可視化の結果自体には意味がありません。
クラスタリングでも以前に書いた記事のように、代表サンプルによるデータセットの可視化・見える化をしたり、サンプル数を低減したり、外れ値 (外れサンプル) を検出したり、サンプルの構造化・階層化をしたりすることはできます。
ただ、その結果自体には意味がありません。言ってしまえば、距離的に近いサンプル同士を一つの塊 (クラスター) として集めただけ、になります。その一つのクラスターやそのクラスターにあるサンプルをどのように解釈するかは、人に依存します。逆に言えば、クラスタリングの結果を、人が事前知識をもって解釈しなければ、クラスタリングの結果自体には意味がありません。
以上のように、教師なし学習だけではデータセットから知識を得ることはできません。いわゆる教師に相当する情報・知識・知見を事前に持ち合わせることが必要になります。教師あり学習では、その情報・知識・知見に相当するものが目的変数 y とお考えください。y がないとき、教師なし学習の結果を解釈するためには、y に代わるような情報が必要になります。ご注意ください。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。