分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
まだデータセットがない時、まず実験条件の仮想的な候補を大量に生成し、その中から実験計画法で最初の実験をする実験条件の候補を選択します。
まず、乱数に基づいて実験条件の候補を大量に生成します。生成された候補の中から実験計画法、具体的にはD最適基準に基づいて最初に実験する実験条件の候補を選択します。連続値で与えられる実験条件に対しては、値の上限・下限などを意識した上で、それぞれの実験条件を乱数に基づいて生成するので OK です。
一方で、「高い」「中くらい」「低い」や「0」「1」「2」のみなど、離散的な候補で与えられる実験条件では、同様に生成することは困難です。ただこの場合でも、乱数に基づいてサンプルを生成することは変わりません。もちろん、実験条件の数が小さければ、全ての組み合わせを生成することも可能ですが、実験条件が多かったり、また実験条件の中に連続値で与えられる実験条件が含まれたりする場合などは、全ての組み合わせを生成することは困難です。
この場合、離散的な候補の中からランダムに選択します。例えば、「高い」「中くらい」「低い」の中から、サンプルごとにランダムに一つ選択することにします。
ちなみに、離散的な実験条件にかかわらず、例えば強い制約がある実験条件もしくは実験条件の組み合わせの場合なども同様に、乱数をうまく活用することで、サンプルごとに生成すれば問題ありません。
大量にサンプルを生成してからは、実験計画法として具体的な基準に基づいて最初の実験条件の候補を選択することは同じです。実験条件に離散的な候補を含んでいたり、制約があったりする場合にも、乱数に基づいて実験条件の候補を生成したり、具体的な基準に基づく実験計画法で最初の実験条件の候補を選択しましょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。