モデルの擬似的な逆解析をする際、仮想サンプル生成にどの程度の制約をつけるか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルの逆解析によって y が目標値を達成しうる x を設計する際、一般的にはモデルを擬似的に逆解析します。x の仮想サンプルを大量に生成し、それらを全てモデルに入力して y を予測し、予測値が目標値を達成している仮想サンプルを選択します。目標値を達成できない場合には、ベイズ最適化で獲得関数の大きな仮想サンプルを選択します。

[無料公開] 「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」の “まえがき”、目次の詳細、第１・２章

2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約２年経過した 2023 年 4 月 ...

仮想サンプルを生成するとき、基本的には乱数に基づいて生成し、x に何らかの制約がある場合は、その制約を考慮して乱数を発生させます。例えば、装置条件などで装置に入力できる上限・下限が決まっている場合には、その範囲内で仮想サンプルを生成する必要があります。このような必須の制約は、以降でも考慮することが前提です。

一方で、装置的には問題ありませんが、これまでの実験・製造において、これまでの知見や経験などの理由で、上限・下限を設定していたり、x 間である関係を持って変化させていたりします。このような“制約”は、モデルの擬似的な逆解析をする際の仮想サンプル生成でも考慮した方が良いでしょうか。

一つの考え方として、そのような制約を考慮せずに乱数に基づいて多様に発生させ、モデルの適用範囲内のみ採用することで、x の制約をある程度満たしつつ多様な仮想サンプルが得られると考えるかもしれません。しかし、適用範囲も他の機械学習の方法と同様に、万能ではありません。場合によっては適用範囲が広すぎてしまうことも狭すぎてしまうこともあります。制約を考慮せずに生成したサンプルが、遠くの外挿領域にある一方で、適用範囲でそれを判断できず、適用範囲内と判断されたにもかかわらず y の予測値と実測値が合わないといったことが起きてしまいます。

そのため、基本的にはモデルの擬似的な逆解析に使用する仮想サンプルは段階的に生成すると良いでしょう。まずはこれまでの知見や経験に基づいてしっかりと上限・下限を設定して仮想サンプルを生成します。また、既存のサンプルの分布に従うように、仮想サンプルを生成する方法もあります。

[Pythonコードあり] 既存のサンプルの分布に従うように、モデルの逆解析用のサンプルをたくさん生成する方法

回帰モデルやクラス分類モデルを構築した後は、モデルの逆解析をします。説明変数 (特徴量・記述子など) X のサンプルをたくさん生成して、それらをモデルに入力することで、目的変数 (活性・物性など) Y の値を推定します。推定された値が、より...

ここで得られたサンプルで y の予測値が目標値を達成していれば問題ありません。一方で、y の目標値が高すぎる場合など予測値が目標値を達成していない場合は、現状の、ある意味では狭い x の範囲では解決が難しいと考えられます。

この際に x の制約を少し緩めます。例えば、x 間である決まりを持って変化させていた時には、決まりを少し緩めたり、もしくは完全に撤廃したりして新たな仮想サンプルを生成します。この仮想サンプルの y の予測値で目標値を達成していれば問題ありませんが、達成していない場合はさらに制約を緩めます。このようにして、段階的に仮想サンプル生成の制約を緩め、y の予測値が目標値が達成しているか確認します。

どんなに制約を緩めても y の予測値が目標値を達成しない場合など、ベイズ最適化を検討する場合は、これまで段階的に生成した仮想サンプル全てで獲得関数を計算しましょう。もともとベイズ最適化は外挿を探索するための方法ですので、制約に限らず仮想サンプルを入力した後の獲得関数の高いサンプルを選択しましょう。

ちなみにモデルの直接的逆解析では、y の値をモデルに入力して x が直接的に得られますので、x の制約は特に考慮せずに y の値を入力して出力すると良いでしょう。