分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデル y = f(x) を構築するとき、基本的には x と y の揃ったサンプルを収集します。これらのサンプルを用いることでモデルを構築できます。一方で、このモデルの構築に直接は使用できないかもしれませんが、x だけのデータや x に関連するその他のデータも集めておくと役に立ちます。
例えば、x のみのサンプルを活用することで半教師あり学習をすることができ、モデルの予測精度が向上する可能性があります。


x や y 以外のパラメータを収集することもあります。例えば、金属有機構造体を対象にして、x が構成要素、y が気体の吸着特性である時、それらとは別の金属有機構造体の結晶構造パラメータを準備しました。

これにより吸着特性データが少なくても、構成要素と結晶構造の揃ったサンプルは多くあるため、モデルを2つに分けて、片方は多くのサンプルでモデル構築するといった工夫をすることで、構成要素から結晶構造を介して吸着特性を予測できます。このように多様なデータを集めることで、y の少ないデータを補うことができます。
別の観点として、実験データだけでなくシミュレーションデータを集めることでも、モデルの予測精度向上や x の設計にそのデータを活用できます。シミュレーションデータが x になることで、上の半教師あり学習のためのデータを、実験なしにシミュレーションのみで大量に収集できたり、シミュレーションで得られるパラメータを用いて、より多くのサンプルでモデル構築が可能になったりします。
分子・材料設計の時に、分子シミュレーションの結果が良くなるように、プロセス設計の時にプロセスシミュレーションの結果が良くなるように、例えばベイズ最適化や直接的逆解析でサイクルを回しつつ、各シミュレーションのデータと実験データと合わせて、同様にベイズ最適化や直接的逆解析でサイクルを回すことで、シミュレーションと実験を融合して効率的に分子・材料・プロセスの設計ができます。
データ解析・機械学習でモデルを構築したり、モデルを用いて分子・材料・プロセスを設計する際は、多くの多様なデータをなるべく多く収集・準備すると良いでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。