分子・材料・プロセスの設計をするときに実験結果を説明変数に用いたいときはどうするか？

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

分子・材料・プロセスの設計において、モデルを用いることで実験前に実験結果を予測でき、次に実験する内容の検討が可能になります。これを行うためには、x として実験前に得られる情報、すなわち分子構造や実験条件を用います。

一方で、モデルの予測精度の向上や構築されたモデルの解釈のために、実験後に得られる分子や材料の分析結果などの実験結果を x として使用することもあります。もちろん、モデルの解釈に使用するのであれば、特に問題はありません。しかし、このモデルでは、上で述べたような実験条件の設計はできません。もちろん、ベイズ最適化や直接的逆解析によって x の値を求めることはできますが、

[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第８章の一部

2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍「化学のための Pythonによるデータ解析・機...

その x が実験結果であるため、はその実験結果を得るためにどうすれば良いか？、には答えることができません。

そのため、実験条件から分析結果などの x として使用する実験結果を予測するモデルを、別途構築する必要があります。ここでは実験条件を x として、分析結果を z として、目的変数を y とすると、y = f(z) もしくは y = f(x, z) のモデルと、z = g(x) のモデルを構築します。これらのモデルを用いることで、z の実験結果が得られなくても、x から z を予測し、予測された z を用いて y を予測できるようになります。例えば、こちらの研究では z を用いたモデリングをしています。

金属有機構造体のモデル化に成功しました！[金子研論文]

金子研の論文が Journal of Chemical Information and Modeling に掲載されましたので、ご紹介します。タイトルはCorrelation between the Metal and Organic Co...

機械学習によりバイオマテリアルの材料特性と骨形成率を予測するモデルを構築し、直接的逆解析により新規材料の設計をしました！ [相澤研＆金子研の共同研究論文]

相澤研と金子研における共同研究の成果の論文が Industrial & Engineering Chemistry Research に掲載されましたので、ご紹介します。タイトルはMachine Learning Model for Pre...

1つ注意点としては、基本的に上の戦略が有効なのは y のデータと比較して z の結果のあるサンプルが多い場合です。y のデータの数と z のデータの数が同じであれば、もともと z の結果だけでなく、y の結果も x に由来していることから、結局 x から直接 y を予測するモデルを構築すれば良いということになってしまいます。z のデータが大量にあることで、z = g(x) のモデルが有効に機能し、少ないサンプルでも x から z を経て y を予測する精度の高いモデルを構築できる可能性があります。実験結果も使用したい上で x の設計をしたい時には、上のようなことを考慮しながら検討すると良いでしょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。