(適応的)実験計画法において潜在的な実験候補数が非常に膨大な時にはどうすれば良いか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

まだ y のデータがない時には、実験計画法で最初に実験すべき x の候補を選択し、実験した後に得られる y のデータを用いてモデルを構築します。構築されたモデルを用いて、ベイズ最適化や直接的逆解析などにより次の実験における x の候補を探索し、実験します。

[無料公開] 「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」の “まえがき”、目次の詳細、第１・２章

2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約２年経過した 2023 年 4 月 ...

実験後に、得られたデータをデータセットに追加し、改めてモデルを再構築します。このサイクル (モデルの構築、x の候補の探索、実験、実験データのデータベースへの追加) を繰り返すことで、y が目標を満たす x の設計を行います。

特に、x の数が大きいとき、最初の実験計画法やその後の x の候補の探索をする際に、候補の数が無限大にも思えるほど膨大になることがあります。例えば、x の数が 30 であり、各 x の候補の数が 10 と仮定すると、潜在的な全候補数は 10⁵⁰ (10 の 30 乗) となり、例えばスパコンを持っていたとしても全てを生成することはできません。このような膨大な x の空間から、目標を満たす x の候補を探索する必要が出てきます。

ただ、このような状況でも、基本的な戦略は

実験計画法 → 適応的実験計画法 (ベイズ最適化や直接的逆解析など)

が有効な戦略となります。

最初に行うべき実験を探索する際も、初めにできる実験回数が例えば 10 回や 30 回のように決まっていることから、膨大な x の空間とはいえ、潜在的な実験条件の候補数が膨大であっても、その中から 10 個や 30 個を選択することに変わりはありません。そしてこの際、ランダムが非常に有効であり、それを効果的に取り入れた実験計画法が最適な手段となります。

実験データが得られた後に、モデルを構築して次の実験候補を探索する際、多くの場合で、例えば 100 万個といった x の多数の候補を乱数に基づいて生成して、それらを予測し、予測結果が良好な、例えばベイズ最適化では獲得関数の値が最も高い x の候補を選択します。ただ、潜在的な x の候補数が膨大であり、x の空間が非常に広大であると、100 万個とはいえスパース (膨大な空間に 100 万個を散布してもスカスカ) になってしまいます。この数を 1000万、1億、1兆としても焼け石に水です。膨大な x の空間の全てを探索することは不可能です。

全探索をするため、1つの有効な手段は直接的逆解析です。

モデルの直接的逆解析法で効率的な適応的実験計画法ができるようになりました！[金子研論文]

金子研の論文が Chemometrics and Intelligent Laboratory Systems に掲載されましたので、ご紹介します。タイトルはAdaptive design of experiments based on G...

この方法により、目標値から x を直接計算できるので、100 万件のような多数の候補を生成するといった必要もなく、膨大な空間であってもその中の最適解を探索できます。

他の手段としては、遺伝的アルゴリズムなどの最適化アルゴリズムを用いることです。例えば、ベイズ最適化における獲得関数を最大化したい時には、その獲得関数を遺伝的アルゴリズムの目的関数にして、それを最大化するような x の候補を探索します。これにより、100 万件のような多数の方法を用いた場合よりも獲得関数の値が高くなる可能性があります。さらに遺伝的アルゴリズムを複数回実行することで、大域的な最適解に到達する可能性が高まります。ただ、これでも直接的逆解析とは異なり、必ず大域的な解になるとは限りませんので注意が必要です。

以上のように、潜在的な実験候補の数が非常に膨大であっても基本的な戦略は変わりません。むしろそういった膨大な空間の場合、直接的逆解析やベイズ最適化などのデータ解析・機械学習を使った場合と使わなかった場合とで達成までの実験回数に大きく差が出ると考えられ、データ解析・機械学習が大きく貢献してくれるでしょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。