ベイズ最適化とモデルの直接的逆解析、それぞれ内挿・外挿をどのように考えればよいか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

様々な設計において、y の目標が高い時には、ベイズ最適化やモデルの直接的逆解析によって、x のいわゆる外挿領域、正確に言えばモデルの適用範囲外を探索する必要があります。

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ...
モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

適用範囲外ですので、予測値は基本的には実測値と合いません。

ベイズ最適化は、予測値と実測値を合わせようとはしていない
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

ベイズ最適化やモデルの直接的逆解析で x の候補を提案し、それに基づいて実験やシミュレーションによって y の実測値を獲得し、それを用いてモデルを再構築し、ベイズ最適化やモデルの直接的逆解析で x の候補を提案し、、、といったことを繰り返します。基本的には、ただただアルゴリズム的に繰り返せば OK です。一方で、提案された x の候補が内挿領域もしくはモデルの適用範囲内なのか、外挿領域もしくはモデルの適用範囲外なのかを知りたい人もいると思います。もちろん、モデルの適用範囲を別途設定するので問題ないのですが、ベイズ最適化におけるガウス過程回帰モデルや直接的逆解析をするモデルでも、内挿領域が外挿領域かを見極められますので、その方法をご紹介します。

ガウス過程回帰モデルでは、y の予測値だけでなくその分散も同時に出力できます。この分散が小さければモデルの適用範囲内であり、大きければモデルの適用範囲外と言えます。大きいか小さいかの判断は、トレーニングデータとテストデータの分割におけるテストデータの y の分散や、(ダブル) クロスバリデーションをした際の予測結果における y の分散の値と比較して、確認すると良いと思います。

一方で、モデルの直接的逆解析では、入力する y の値に基づいて、x が内挿領域か外挿領域か判断できます。入力する y の値が既存のデータと近ければ x は内挿ですし、遠ければ x は外挿になります。近いか遠いかは、y の値のヒストグラムなどで分布を確認すると良いと思います。

以上のように、ベイズ最適化やモデルの直接的逆解析で x の候補を提案するとき、結果的にそれが内挿領域なのか外挿領域なのかを確認することができます。色々な設計をする時、提案される x の候補を詳細に確認したい方は活用してみてください。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました