分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
例えば予測精度の高いモデルを構築するために、x の特徴量化の検討をしたり、ノイズや外れ値を処理する様々なデータの前処理法があったり、有効なx のみを選択するための様々な変数選択法があったり、モデルを構築する様々な方法があったりします。これらの方法およびそれらの組み合わせが多数存在するため、その中から最も優れた方法、すなわちベストプラクティスを見つけたいと思うかもしれません。
しかし、データ解析や機械学習においては、どのようなデータセットにおいても一つのベストプラクティスとなる方法やその組み合わせは存在しません。データセットごとに様々な方法を比較検討し、そのデータセットに適した手法を選択する必要があります。
そのため、重要なことは、適切に評価することです。例えばモデルの予測精度を高めるための手法を選択する際には、特徴量化の方法、前処理方法、変数選択方法、モデル構築方法を組み合わせとして検討し、最適な組合せを選択します。選択する際に重要なことは、モデルの予測性能の適切な評価です。基本的にはテストデータとトレーニングデータの分割やダブルクロスバリデーションを用いて評価しますが、対象とする材料によっては評価方法を工夫する必要があります。
材料開発・プロセス開発等のプロジェクトの目的に応じて適切な評価方法を検討することが重要です。特徴量化の方法、データの前処理方法、変数選択法、機械学習法などは絶えず新たな手法が開発されていますし、私の研究室でも開発していますが、データ解析や機会学習のユーザーとしては、プロジェクトの目的に応じて適切な方法を選択し、評価することに注力すると良いでしょう。これにより、対象の材料やプロセスの開発におけるベストプラクティスを適切に見つけることができるでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。