分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
分子・材料・プロセスの設計において、モデルを用いることで実験前に実験結果を予測でき、次に実験する内容の検討が可能になります。これを行うためには、x として実験前に得られる情報、すなわち分子構造や実験条件を用います。
一方で、モデルの予測精度の向上や構築されたモデルの解釈のために、実験後に得られる分子や材料の分析結果などの実験結果を x として使用することもあります。もちろん、モデルの解釈に使用するのであれば、特に問題はありません。しかし、このモデルでは、上で述べたような実験条件の設計はできません。もちろん、ベイズ最適化や直接的逆解析によって x の値を求めることはできますが、
その x が実験結果であるため、はその実験結果を得るためにどうすれば良いか?、には答えることができません。
そのため、実験条件から分析結果などの x として使用する実験結果を予測するモデルを、別途構築する必要があります。ここでは実験条件を x として、分析結果を z として、目的変数を y とすると、y = f(z) もしくは y = f(x, z) のモデルと、z = g(x) のモデルを構築します。これらのモデルを用いることで、z の実験結果が得られなくても、x から z を予測し、予測された z を用いて y を予測できるようになります。例えば、こちらの研究では z を用いたモデリングをしています。
1つ注意点としては、基本的に上の戦略が有効なのは y のデータと比較して z の結果のあるサンプルが多い場合です。y のデータの数と z のデータの数が同じであれば、もともと z の結果だけでなく、y の結果も x に由来していることから、結局 x から直接 y を予測するモデルを構築すれば良いということになってしまいます。z のデータが大量にあることで、z = g(x) のモデルが有効に機能し、少ないサンプルでも x から z を経て y を予測する精度の高いモデルを構築できる可能性があります。実験結果も使用したい上で x の設計をしたい時には、上のようなことを考慮しながら検討すると良いでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。