同じ実験条件で繰り返し行ったときの平均値を目的変数とすべきか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

実験系によっては、複数回実験を行い、それらの結果である y の複数の値から平均値を計算し、それをデータとして用いるときがあります。同じ実験条件でも、結果として y の値がばらつくため、それらの平均値を使うことで、より真値に近い値を取得しようとする考え方です。

例えば、同じ実験条件で 5 回実験して、その平均値を y とするとき、機械学習でモデルを構築しようと、20 サンプル準備するとします。このとき、5 × 20 で 100 回もの実験をする必要があります。

この実験数を減らしたい、といった相談があったときには、まず同じ実験条件で 5 回ではなく、1 回で機械学習やベイズ最適化などの適応的実験計画法を進めましょう、という話をしています。もちろん、5 回実験した場合の y の値と比べて、1 回しか実験しない場合の y の値の信頼度は下がるのですが、まずはその値で x の設計を進めようとする考え方です。

こうすれば、20 サンプル集めるときに、単純に 20 回の実験で済みます。この 20 サンプルでモデルを構築し、y の予測値やベイズ最適化でしたら獲得関数、それか直接的逆解析で次の実験における x の値を決めて、実験して y の値が目標に達成していなかったらその結果を 21 サンプル目として追加して、再度モデルを構築して x の値を設計して、、、といったことを繰り返します。

そうすると、例えば 15 回繰り返して y が目標を達成したとき、20 + 15 = 35 回の実験で済ませることができます。そして、y が目標に到達した後に、到達した際の x の値で、5 回 (残りの 4 回) 実験を行い、本当に y の値が安定的に目標を達成するのか検証します。

こうすることで、なるべく少ない実験回数で y が目標に到達しうる x の値を設計でき、さらにそれが本当に安定的に達成するか、複数の実験でも検証できます。そして結果的に少ない実験回数で目標達成が可能になります。

分子設計・材料設計・プロセス設計において同じ実験条件で複数回実験しているときは、ぜひ参考にしていただければと思います。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。