分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
対象とする材料や実験系によっては、y が複数あるときもあります。そして、例えばすべての y が目標を満たす、もしくは目標範囲内に入るような材料を作製します。このとき、基本的に y ごとに、x との間でモデルを構築します。y が10個あったら、モデルも、最終的に10個構築されます。
当然ながら、y ごとに x との間の関係が異なることが多いです。逆にいえば、どの y も x と同じような関係性であれば、複数の y を考慮する必要はなく、どれか一つの y のみ考慮するだけで、他の y も同時に考慮されるため十分なわけです。それでは適切に分子・材料・プロセスの設計ができないため、複数の y があるといえます。
y ごとに、x との関係が異なるわけですから、モデルも y ごとに独立して検討した方が、より予測精度の高いモデルを構築できます。例えば y ごとに、あるサンプルの値が測定されていたり、測定されていなかったりしますが、すべての y でサンプルが揃っているデータセットを用いて y ごとにモデルを構築すると、y によっては値のあるサンプルが多いにもかかわらず、少ないサンプルでモデルを構築しなければなりません。すべてのサンプルを活用できず、もったいないです。このようなときには、y ごとに、値のあるサンプルすべてを用いてモデルを構築するようにしましょう。
サンプルと同様にして、x もすべての y で揃える必要はまったくありません。x と y の間の関係は異なるということですから、y ごとに、モデルを構築するときの適切な x は異なります。例えば、特徴量選択 (変数選択) をするときは、y ごとに選択するとよいでしょう。もちろん、オーバーフィッティングを防ぐためや、いくつかの y で共通して関係している x を見つけるために、複数の y を考慮して特徴量選択をすることもありますが、モデルの予測精度の観点からは、基本的に y ごとに特徴量を選択する方がよいです。
y ごとにモデルの x が異なっていても、その後のモデルを用いた予測やモデルの逆解析はまったく問題ありません。まず、特徴量選択前の x すべてで仮想サンプルを大量に生成します。次に、y のモデルごとに、選択された x の値のみモデルに入力して、y を予測します。こうすることで、モデルごとに x が異なっても、仮想サンプルそれぞれから、すべての y を予測できます。
ちなみに、x の間に相関関係があり、特徴量選択で選択された x と選択されなかった x との間の関係を無視できないときは、すべての x を用いてモデルの適用範囲を設定したり、
既存のデータ分布に従うように仮想サンプルを生成したり、
した方がよいでしょう。
なお、上のような y ごとにサンプルを変えたり x を変えたりすることは、一般的なモデルの逆解析だけでなくベイズ最適化や能動学習でも同様です。
分子・材料・プロセスを設計するときは、ぜひ検討してみてください。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。