金子研の研究成果の論文が molecular informatics に掲載されましたので、ご紹介します。タイトルは
Improving Molecular Design with Direct Inverse Analysis of QSAR/QSPR Model
です。これは修士一年の紫野優人さんが学部生のときに取り組んだ研究の成果です。
分子設計は、化学構造の設計、化合物の合成、物性・活性の測定というサイクルを繰り返すことで行われます。理論的に存在しうる化学構造の数は膨大であり 1023〜1060 個程度と推定されていますが、これまでに合成された化合物の数は、そのごく一部の 108 個程度に過ぎません。広大な化学空間の中から、効果的な分子を見つけ出すためには、膨大な時間と費用が必要となります。また化学構造の設計では研究者の知見や経験に基づいて設計されますが、知見の外にある化学構造を設計することや、知見がない分野における設計は困難です。
生成モデルの一つである variational autoencoder (VAE) はトレーニングデータの特徴を学習し、トレーニングデータと似たようなデータを生成するモデルであり、入力データを連続的な潜在変数にマッピングすることを学習するエンコーダと、潜在変数から入力データを再構築することを学習するデコーダから構成される。その中で、化学構造の生成に特化した手法として Chemical VAE (CVAE) が提案されました。
本研究では CVAE と Gaussian mixture regression (GMR) を組み合わせた手法に着目しました。エンコーダとデコーダは大量の分子データから入力された化学構造と、出力された化学構造が一致するように学習され、分子の化学構造からエンコーダを通して変換された潜在変数 x と分子の物性・活性・特性などの目的変数 y との間で数理モデルを構築します。このモデルを直接的逆解析することにより y が目標値を持つ x の値を直接予測し、その値からデコーダによって化学構造を生成することで y の目標値を持つ分子を探索できます。従来は、大量の仮想的な化学構造から目標の y の予測値を持つ化学構造を選択する擬似的な逆解析であったが、数理モデルに GMR を用いることで目標の y の値から直接化学構造を求めることができ、広大な分子空間を網羅的に探索することを可能にしました。しかし、生成された分子の実際の y が目標値とかけ離れた値になってしまうことが多く、また複数の y の値を考慮した分子を生成することが依然として困難でした。さらに、大きな環構造など複雑な構造が多く生成されてしまいます。
本研究では複数の y が目標値を同時に満たす分子の効率的な探索を目的とします。これを達成するため、hierarchical variational autoencoder (HVAE) に着目し、これに物性予測モデルとして GMR を組み合わせた手法 HAVE-GMR を提案しました。CVAE は SMILES を文字列としてone hot エンコーディングを行い VAE を学習する手法ですが、VAE が SMILES 文法を適切に捉えきれず、文法にそぐわない文字列や、複雑な構造を生成すると考えられます。そのため生成分子が y の目標値を満たさないことが多くあります、HAVE はグラフ構造を用いることでこの問題を解決すると考えられます。
提案手法の有効性を検証するため、y を水/オクタノール分配係数 (logP), quantitative estimate of drug-likeness (QED)[8], synthetic accessibility score of drug-like molecules (SAS) として、ZINC の分子データセットを用いて検証を行い、提案手法は、従来手法では困難であった複数の物性の目標値を同時に満たす化学構造の設計を達成しました。
次に、実際の創薬ターゲットに対しての提案手法の有効性の検証を行いました。抗精神病薬の標的タンパク質として知られている DRD2 をターゲットとして、タンパク質とリガンドの結合親和性を示すエネルギーを AutoDock Vina のエネルギー計算により計算しました。これを提案手法と組み合わせ、エネルギー値がより小さい分子の探索を行いました。
興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。