モデルの逆解析用の仮想サンプルを生成する際の制約に関する考え方

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルを構築したら、次の実験条件やプロセス条件、もしくはシミュレーション条件を設計するため、モデルの逆解析を行います。モデルの直接的逆解析により、y の値から x の値を直接予測することはできますが、

予測値+モデルの適用範囲か、ベイズ最適化か、直接的逆解析か
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

多くのモデル構築手法では直接的逆解析はできないため、疑似的なモデルの逆解析で対応します。

x の仮想サンプルを大量に生成し、それらをモデルに入力して y の値を予測し、予測結果が良好なサンプルを選択します。ベイズ最適化では y の予測値の代わりに獲得関数の値を用い、獲得関数の値が大きいサンプルを選択します。

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ...

 

ここで大切なことの一つに、大量の x の仮想サンプルを生成することが挙げられます。基本的には x の空間にまんべんなく、すなわち乱数に基づいて生成することが望ましいです。もちろん、例えば遺伝的アルゴリズムのようなメタヒューリスティクス(最適化アルゴリズム)を用いて、y の値が良好な、もしくは獲得関数の値が大きい x のサンプルのみを効率的に探索する方法もありますが、ここではなるべく漏れがないように、その空間に仮想サンプルを大量に生成することを考えます。

x の空間として、実験条件・プロセス条件・シミュレーション条件などに制約がある場合があります。例えば、モデル構築時のデータセットにおいて、ある実験条件が全くばらついていなかったら、その実験条件の y への影響をモデル化することは不可能であるため、モデルの逆解析において仮想サンプルを生成する際には、そのサンプルの値を変化させることはできません。もちろん、次の実験でその実験条件を振りたい場合には、別途乱数に基づいて振ると良いでしょう。

制約として、実験装置などの特性上、それ以上値を大きくできない、もしくは小さくできないといった条件は考慮せざるを得ませんので、制約として反映させます。一方で、実験的に問題なければ、基本的に制約は考えずに仮想サンプルを生成する、という考え方もあるかもしれません。

1つ考慮すべきは、多くの状況において x が多変量であり、大量のサンプルを生成するといっても、すべての x の組み合わせを生成することは現実的に不可能であり、必ず漏れが生じてしまうということです。全く制約がない中で大量の仮想サンプルを生成したとしても、x の空間の一部のみが生成され、空間全体を見ると “スカスカ” の状態になります。

そこで、モデル構築時のサンプルにおいて x が変化していた場合に、まずは経験的な制約を x に入れて仮想サンプルを生成すると良いでしょう。もちろん、制約を入れたからといってすべての組み合わせを生成できるわけではありませんが、スカスカの状態は多少改善されます。まずそのように生成された仮想サンプルで、y の予測値が良好な値が得られるか、または獲得関数の値が大きいサンプルが得られるか、検討すると良いでしょう。

ここで目指す y を達成できそうな x の設計ができなかった場合は、x の制約を外して仮想サンプルを生成し、同様に y の予測値が良好なサンプルを検討したり、獲得関数の値が大きいサンプルを検討したりすると良いでしょう。そうすることで、ある程度信頼できる経験的な制約を考慮した上で x の探索ができ、経験的な制約のない仮想サンプルでもモデルの逆解析の検討が可能になります。

なお、モデルの適用範囲の考慮の仕方についてはこちらをご覧ください。

モデルの擬似的な逆解析をする際、仮想サンプル生成にどの程度の制約をつけるか
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

遺伝的アルゴリズムのようなメタヒューリスティクス(最適化アルゴリズム)を用いて、y の値が良好な、もしくは獲得関数の値が大きい x のサンプルのみを効率的に探索する際に x の制約を考慮する際も、上と同様に考えることができます。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました