実践的な分子設計における扱う分子の順番(低分子有機化合物)

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

低分子有機化合物を対象にした分子設計においては、モデルを構築した後に何らかの分子を入力して y の値を予測し、予測値が良好な分子を選択したり、ベイズ最適化において獲得関数の値が大きい分子を選択したりします。

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ...

 

モデルの直接的逆解析により、y の目標値から直接的に分子を生成することもできます。

物性・活性予測モデルの直接的逆解析による分子設計における精度向上を達成しました![金子研論文]
金子研の研究成果の論文が molecular informatics に掲載されましたので、ご紹介します。タイトルはImproving Molecular Design with Direct Inverse Analysis of QSA...

 

もちろん、y の目標値を満たす分子を提案することも大事ですが、その分子が実際に扱えたり合成できたりすることも重要です。これらのことを考慮すると、分子設計で扱う分子は次の順番が良いでしょう。

  1. 試薬データベースなどにある購入可能な分子
  2. PubChem、ChEMBL などにある実際に存在する分子
  3. 仮想的な化学反応により生成可能な分子
  4. 構造等の制約を入れて生成する分子
  5. モデルの直接的逆解析により生成する分子
  6. 制約を入れずに生成する分子

 

まずは、試薬データベースなどで購入可能な分子を収集します。これらの分子の y の値を予測したり、獲得関数を計算したりして良好な値を持つ分子が得られれば、その分子をすぐに購入して検証できます。

これらの分子の中に良好な分子がない場合には、すぐに購入することはできませんが、反応経路がわかっていて実際に合成されたことのある PubChem や ChEMBL などにある実在する分子を扱います。ここで有望な分子が得られれば、少し時間はかかりますが、合成して実際に扱うことができます。

以上の手順で有望な分子が見つからない場合には、まだ実際には存在してない、仮想的な分子を扱うことになります。仮想的とはいえ、合成しやすい方が現実的であるため、化学反応に基づいて生成された分子を扱うと良いでしょう。ここで有望な分子が得られれば、仮想的ではありますが化学反応が紐づいているため、実験で再現できる可能性が高いです。このような分子生成の方法として、例えば BRICS を用いた方法や SMARTS を用いた方法があります。

機械学習によりエポキシ樹脂の誘電率予測モデルを構築し、一般に入手可能なデータを用いてモデルの予測精度を向上させ、低誘電率を実現するモノマー構造を提案しました![積水化学工業&金子研の共同研究論文]
積水化学工業と金子研における共同研究の成果の論文が ACS Applied Polymer Materials に掲載されましたので、ご紹介します。タイトルはMachine Learning Model for Predicting Die...

 

ここまででも有望な分子が得られない場合は、化学反応とは紐付きませんが、分子構造にある程度の制約を入れたり、分子らしさや既存の分子との類似度などで制約を入れたりして分子を生成すると良いでしょう。例えばこちらです。

誘導体の化学構造を自動生成するプログラムを作りました。ご自由にお使いください
研究の関係で、ある骨格の誘導体の化学構造を生成したいことがありまして、生成したあとはその化学構造の活性だったり物性だったりを推定するので、Python で構造生成機を作ってしまいました。Github にありますので、必要な方はご自由にお使い...

 

この中に有望な分子があれば、もちろん合成経路は別途検討する必要がありますが、現実的な分子が選択されることになります。

これでもだめなら、モデルの直接的逆解析によって分子を生成しましょう。y の値をモデルに入力することで、直接的に分子構造を生成できます。分子構造にある程度の制約を入れることも可能です。

物性・活性予測モデルの直接的逆解析による分子設計における精度向上を達成しました![金子研論文]
金子研の研究成果の論文が molecular informatics に掲載されましたので、ご紹介します。タイトルはImproving Molecular Design with Direct Inverse Analysis of QSA...

 

これで生成できなかったら、ある程度運に任せて、何も制約を入れずに分子を生成しましょう。

以上のように手順を踏むことで、もちろん目的とする y の目標値を達成することを目指しながら、現実的に利用可能な分子を優先的に扱います。ぜひお試しください。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました