分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
回帰分析やクラス分類でモデルを構築するとき、回帰分析手法やクラス分類手法の話より先に、頭に入れておくべきことがあります。機械学習の方法にかかわらず、最初に考えるべきことです。
それは、サンプル間において、x 側が似ているサンプル間の y の値が似ているかどうかです。類似した実験条件で合成した材料同士の物性や活性の値は似ているか、分子構造が類似した化合物同士の物性や活性は似ているか、類似したプロセス条件で製造された製品の品質は似ているかが重要になります。x 側が似ていても y の値が似ていないと、どんな回帰分析手法やクラス分類手法を用いても、良好なモデルを構築することはできません。一方で、x 側が似ているときに y の値が似てさえいれば、良好なモデルを構築できる可能性があります。そして、x の特徴量を工夫する特徴量エンジニアリングをしたり、様々な回帰分析手法やクラス分類手法を検討したりすることになります。このように、あらゆる機械学習の前に、x 側が類似したサンプル間の y の値が類似しているかどうかが重要になります。
なお、データセットにおいて、x 側が似ているサンプル間の y の値が似ているサンプル群の中で、x 側が似ているときにy の値が似ていないサンプルがあるとき、それは外れサンプルです。
ちなみに、y の値が似ているサンプルの x 側が、似ていようが似ていなかろうが、モデルの予測精度とはまったく関係ありませんので、こちらは気にしなくて大丈夫です。
機械学習を始める、というと機械学習の手法 (回帰分析手法やクラス分類手法など) の方に目が行ってしまうと思います。もちろん勉強することも大事ですが、そもそもの大前提として、x 側が似ているサンプルの y の値が似ているデータセットでないと、どんな機械学習の手法を用いたとしても成功できません。そのようなデータセットがあって初めて、色々な回帰分析手法やクラス分類手法を検討することで良好なモデルが構築できます。
色々な入門書や、プログラミングなしでも機械学習を実施可能なウェブサービスの登場により、機械学習を実現するハードルは大きく下がっています。そのため、機械学習で成功するための大前提である x 側が類似しているサンプルの y の値が類似していることの重要性が高くなっています。
機械学習の検討前に、ぜひデータセットについて検討していただければと思います。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。