分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
低分子有機化合物を対象にした分子設計においては、モデルを構築した後に何らかの分子を入力して y の値を予測し、予測値が良好な分子を選択したり、ベイズ最適化において獲得関数の値が大きい分子を選択したりします。

モデルの直接的逆解析により、y の目標値から直接的に分子を生成することもできます。

もちろん、y の目標値を満たす分子を提案することも大事ですが、その分子が実際に扱えたり合成できたりすることも重要です。これらのことを考慮すると、分子設計で扱う分子は次の順番が良いでしょう。
- 試薬データベースなどにある購入可能な分子
- PubChem、ChEMBL などにある実際に存在する分子
- 仮想的な化学反応により生成可能な分子
- 構造等の制約を入れて生成する分子
- モデルの直接的逆解析により生成する分子
- 制約を入れずに生成する分子
まずは、試薬データベースなどで購入可能な分子を収集します。これらの分子の y の値を予測したり、獲得関数を計算したりして良好な値を持つ分子が得られれば、その分子をすぐに購入して検証できます。
これらの分子の中に良好な分子がない場合には、すぐに購入することはできませんが、反応経路がわかっていて実際に合成されたことのある PubChem や ChEMBL などにある実在する分子を扱います。ここで有望な分子が得られれば、少し時間はかかりますが、合成して実際に扱うことができます。
以上の手順で有望な分子が見つからない場合には、まだ実際には存在してない、仮想的な分子を扱うことになります。仮想的とはいえ、合成しやすい方が現実的であるため、化学反応に基づいて生成された分子を扱うと良いでしょう。ここで有望な分子が得られれば、仮想的ではありますが化学反応が紐づいているため、実験で再現できる可能性が高いです。このような分子生成の方法として、例えば BRICS を用いた方法や SMARTS を用いた方法があります。

ここまででも有望な分子が得られない場合は、化学反応とは紐付きませんが、分子構造にある程度の制約を入れたり、分子らしさや既存の分子との類似度などで制約を入れたりして分子を生成すると良いでしょう。例えばこちらです。

この中に有望な分子があれば、もちろん合成経路は別途検討する必要がありますが、現実的な分子が選択されることになります。
これでもだめなら、モデルの直接的逆解析によって分子を生成しましょう。y の値をモデルに入力することで、直接的に分子構造を生成できます。分子構造にある程度の制約を入れることも可能です。

これで生成できなかったら、ある程度運に任せて、何も制約を入れずに分子を生成しましょう。
以上のように手順を踏むことで、もちろん目的とする y の目標値を達成することを目指しながら、現実的に利用可能な分子を優先的に扱います。ぜひお試しください。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。