既存のデータがある時に次の実験条件をどう決めるか~実験計画法で決めるかモデルを作ってしまうか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

まだデータセットがない時、まず実験条件の仮想的な候補を大量に生成し、その中から実験計画法で最初の実験をする実験条件の候補を選択します。最初に実験した後、得られたデータを用いて、機械学習によりモデルを構築します。合わせてモデルの適用範囲を設定し、その範囲内で次の実験条件を設計できる時は行い、できない場合はベイズ最適化により次の実験条件の候補を設計します。設計された次の実験条件の候補で実験し、得られたデータをデータセットに追加します。このような、機械学習によるモデル構築、モデルを用いた次の実験条件の候補の設計、実験を繰り返すことで、y が目標値もしくは目標範囲となる分子、材料、プロセスを開発します。詳細についてはこちらをご覧ください。

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ...

 

すでにデータセットがある時に、上の流れをそのまま踏襲する、すなわちまずは実験条件の候補を実験計画法に基づいて選択するか、もしくはすでにあるデータセットを使ってモデルを構築し、そのモデルに基づいて次の実験条件の候補を設計するか、迷うこともあるかと思います。基本的には、データセットが存在し、何らかのモデルを構築できるような状況であれば、モデルを構築してそのモデルに基づいて次の実験条件の方法を設計する方が良いです。ひとつの理由としては、実験計画法では y のデータを全く使っておらず、単に x のばらつき、x の情報量を考慮しているのみであるのに対し、既存のデータセットを使うことで y の情報を考慮でき、x の次の候補の方向性を検討することが可能であるためです。

心配事として、最初は x のばらつき、x の情報量を増やした方が良いのではないか、というのがあると思います。ただ、モデルを構築してモデルに基づいて設計した場合でも、x のばらつきを十分に考慮した上で、次の実験条件の候補を設計できます。もちろん、サンプル数が小さくても、x と y の間で的確なモデルを構築することができれば、そのモデルを用いて次の実験条件の候補を設計できますし、仮に、あまり x とy の間で明確なモデルができなくても、そのモデルでベイズ最適化を行うことで、少なくとも既存の x から離れた、つまり外挿を探索していることになりますので、x のばらつきが大きくなる方向、x の情報量が増える方向に次の x の候補を設計できます。

新たに x が増える、すなわち新たな実験条件、製造条件、プロセス条件などを追加した場合でも、

既存のデータセットがある場合に実験計画法で今後の実験条件を求める方法
適応的実験計画法の話です。分子設計や材料設計やプロセス設計において、まだデータセットがないとき、最初に実験やシミュレーションするための分子・合成条件・製造条件・プロセス条件といった説明変数 x の値を実験計画法により決めます。その条件で実際...

 

すでに存在していた x については、ベイズ最適化で設計し、それ以外の新たに追加された x についてのみ、ランダムに、もしくは実験計画法で選択することで、既存のデータセットも活用した新たな x を含む候補の提案をすることができます。

以上のように、既存のデータセットがある時は、それが非常に貴重な、重要な情報であることを認識して、モデルを構築し、構築されたモデルを活用するようにしましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました