データ解析・機械学習関係のよくある質問の中に、何サンプル集めればデータ解析・機械学習で分子設計・材料設計・プロセス設計ができますか?、といったものがあります。また、具体的に何サンプルしかないのですがこれでできますか、といった心配をされる方もいます。サンプルを集める段階や集め終わった段階において、何サンプル集めれば十分に分子設計・材料設計・プロセス設計ができる、ということはありません。
それを判断するためには、データ解析・機械学習を実施してみる必要があります。なので、サンプルが少ないと思われるときでも、データ解析・機械学習をしてみましょう。具体的には、例えば回帰分析をするとき、ダブルクロスバリデーションで評価をすることで、サンプルが少ないときでも、今のデータセットで良好な結果になるかどうかを適切に評価できます。
ダブルクロスバリデーションであれば、データセットが適切であれば良い結果になりますし、適切でなければちゃんと悪い結果になってくれます。ある程度のデータセットを集めた段階において、ダブルクロスバリデーションを実施してみて、この結果が悪ければ、さらにサンプルや特徴量の収集を検討する、といったことができます。
実際にデータ解析・機械学習をしてみて、ダブルクロスバリデーションで評価した後に判断するのがよいでしょう。というより、むしろこのように実際にデータ解析・機械学習をしてみないと判断できません。
ただ、ダブルクロスバリデーションの結果が良好であったことが、サンプルの収集を終了する理由にはなりません。もちろんサンプル全体を説明できるモデルは構築できたかもしれませんが、新しい分子や材料やプロセスを設計するときに大事になるモデルの適用範囲 (Applicability Domain, AD) は、サンプルが増えるほど広くなり、サンプルを増やすことで、より広範囲の分子・材料・プロセスを的確に設計できるようになります。
現在の特徴量で適切に目的変数を説明できているということですので、有望なデータセットといえます。さらにサンプルを集めることで、より多様な分子・材料・プロセスを設計できることになりますので、ぜひ力をかけてデータ収集をされるとよいと思います。
現状のデータセットのサンプル数が小さい、もしくは潜在的に多くのサンプルを集められる状況において、サンプル収集に踏み込めないときは、まずデータセットをデータ解析・機械学習してみるとよいでしょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。