分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
金子研において、学生が研究室配属になった後は、新人研修として Python プログラミングを学んだり 色々なデータ解析・機械学習をしたりします。そして毎週、進捗の状況を報告してもらっています。データ解析・機械学習の結果をしっかり確認することは、こちらに書いた通りです。
データ解析・機械学習の結果を詳細に確認することは、扱うデータ・サンプルについてより深い理解を得ることを含みます。そのサンプルがどのようなものか、どのようなプロセスを経てそのデータが得られたのかを理解しておくことが、モデル化に役立ちます。
実験条件・合成条件・作製条件・製造条件・プロセス条件のデータでは、サンプルの素性を調べることで、現在の条件ではサンプルを適切に表現できていない可能性が明らかになるかもしれません。また、物性や活性のデータにおいては、サンプルごとに分析装置が異なる場合や分析方法・評価条件が異なる場合があるかもしれません。化合物の場合、分子構造を数値化する際に不適切な特徴量が含まれてしまっているかもしれません。
広い意味で、サンプルごとの素性を正確に把握することは、モデルの予測精度を向上させることにつながり、適切な予測を行うために役立ちます。もちろん考え方としては、データ解析・機械学習を行う前にサンプルの素性を 100% 理解しておくべき、というのも理解できます。しかし一方で、何をもって 100% 理解していると言えるのか、といったこともありますし、また完全な理解を得るまでの時間を考慮すると、データ解析・機械学習を先に進めた方が、分子設計・材料設計・プロセス設計・プロセス管理の何らかのプロジェクト全体を考えると効率的な場合もあります。また、データ解析・機械学習をとりあえず実施することで見えてくるサンプルの特徴もあります。データ解析・機械学習を進めながら結果を確認する際には、サンプルの特性もしっかりと調査するようにしましょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。