機械学習による分子設計において、実在する分子データから現実的で合成可能な分子のみが含まれる領域「化学安定性領域」を定義し、不安定な分子を高い精度で排除することに成功しました！！[金子研論文]

金子研の研究成果の論文が Results in Chemistry に掲載されましたので、ご紹介します。タイトルは

A method to define a domain in chemical space where only stable molecular structures exist

です。これは修士卒の小坂井颯麻さんが取り組んだ研究の成果です。

機械学習を用いた分子設計において、現実的で合成可能な、安定な分子構造のみが存在する化学空間上の領域である「化学安定性領域（CSD）」を定義する手法を開発した研究です。

創薬や材料開発の現場では、実験のコストや時間を削減するために機械学習が盛んに活用されています。一般的に、構築されたモデルの予測が信頼できる範囲を示すモデルの適用領域（AD）の内部で新たな分子の探索が行われますが、高い目標値を達成するためにADの境界や外部まで探索を広げた際、現実には存在し得ないような不安定な分子構造が提案されてしまう課題がありました。このような分子は実際には合成できないため、実験プロセスにおける大きな非効率性を生む原因となっていました。

この課題を解決するため、実在する多様な分子データが占める空間を特定し、未知の分子構造がその領域の内部にあれば安定、外部にあれば不安定と判定できるCSDという概念を提案しました。CSDの構築には、化学物質データベースであるPubChemから取得し、無機化合物やラジカルなどをあらかじめ取り除いた約47万個の実在分子データを使用しています。これらのデータを、分子の局所的な構造特徴を表現する記述子ECFP4に変換し、分子間の構造的差異を際立たせるsokalsneath類似度を用いて距離を算出しました。さらに、膨大なデータに対する計算を効率化するため、高速近似近傍探索手法であるNNDescentを用いたk近傍（k-NN）法を適用し、統計的な3σ法に基づいて領域の境界を決定しました。

開発されたCSDの識別性能を検証するため、評価用に用意した安定化合物と、高い反応性などの理由で除外された不安定構造のデータセットを入力したところ、安定化合物の99.520%を領域内に保持し、不安定構造の91.335%を領域外へ排除することに成功し、高い精度で分子の安定性を判別できることが証明されました。また、特定の物性予測モデルに紐づく従来の複数のADと比較した結果、ADでは分子の安定性を一貫して判別できないのに対し、CSDはモデルに依存しない汎用的なスクリーニング領域として機能することが確認されました。既存の合成難易度指標（SAS）や機能基フィルタ（REOS）、ホワイトリスト手法との比較においてもCSDは優れた柔軟性と排除性能を発揮し、他手法と併用することで約98%の不適切な構造を排除できることが示されました。さらに、AIの生成モデルが設計した仮想分子群のフィルタリングにも有効に機能することが実証されています。

結論として、本研究が提案するCSDは、分子設計の初期段階で不安定な構造を自動的にフィルタリングする強力なツールとなり、創薬や新材料開発における合成実験の効率を飛躍的に向上させることが期待されます。今後は、データベースに起因する構造の偏りの考慮や、より多様な不安定構造を用いた検証がさらなる発展への鍵となります。

興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。