SELFIESに基づいた分子記述子、化学構造生成、inverse QSPR/QSARを開発しました![金子研論文]

金子研の論文が ACS Omega に掲載されましたので、ご紹介します。タイトルは

 

Molecular Descriptors, Structure Generation, and Inverse QSAR/QSPR Based on SELFIES

 

です。表紙絵にもなりました!

 

分子設計において重要なことの一つは、予測精度の高いモデルを構築することです。予測精度の高いモデルを構築する方針の一つとして、化学構造の特徴を適切に表現する分子記述子を用いることが挙げられます。分子記述子を計算するソフトウェアとして、RDKit, Mordred, MOE, AlvaDesc, CODESSA などが使用されています。また、ECFP4, FCFP4, MACCS key などのフィンガープリントも化学構造を数値化するため、分子記述子の一つと言えます。

分子記述子 x と物性・活性 y の間で機械学習により数理モデルを構築すれば、任意の化学構造に対して、x を計算してモデルに入力することで、y を予測できます。モデルに入力する化学構造を生成するため、さまざまな化学構造生成手法が開発されました。y が目標の値を持つ化学構造を生成することで分子設計するためには、inverse QSPR/QSAR が有効です。ただ、y の目標値に対応する x を求めるだけでなく、x と化学構造が一対一になる必要があります。x の値から予測された y の値が良好であったとしても、その x の値に対応する化学構造を生成できなければ意味がありません。

そこで本研究では、化学構造の表現方法として SELFIES (self-referencing embedded strings) に着目し、SELFIESに基づく分子記述子、化学構造生成、inverse QSPR/QSAR の手法を開発しました。SELFIESにより、化学構造の SELFIES を one-hot ベクトルに変換できますので、これをフィンガープリントのように分子記述子として使用します。これを SELFIES 記述子と呼びます。なお、SELFIES から one-hot ベクトルに変換できるだけでなく、one-hot ベクトルから SELFIES への変換も可能です。さらに、SELFIESの特徴から、すべての SELFIES から化学構造を生成できますので、化学構造 → SELFIES → one-hot ベクトルの変換、および one-hot ベクトル → SELFIES → 化学構造の変換が可能になります。これは、モデルの逆解析により提案されたSELFIES 記述子 x の値が、化学構造に対応することを意味します。

提案手法の概要を以下の図に示します。

 

まずモデリングにおいて、化合物データセットの化学構造を用いて、SELFIES から変換した one-hotベクトルを SELFIES 記述子とします。one-hotベクトルには、SELFIES symbols の有無やSELFIES symbol の位置に関する情報が含まれており、分子の化学構造の特徴を表現していると考えられます。そして、SELFIES 記述子と y との間で回帰モデルを構築します。

次に y の予測や inverse QSPR/QSAR において、ランダムに 0 or 1 を生成したSELFIES記述子に対し、そのSELFIES記述子からSELFIESに変換した後に再度SELFIES記述子と一致するかチェックし、一致しない場合は削除します。これにより有効なSELFIES記述子が得られます。これらをモデルに入力し、y の値を予測する。Y の予測値が良好な値をもったり、y の目標値と近かったりするSELFIES記述子、すなわち化学構造を選択します。これにより、目標とする y を実現可能な分子を設計できます。なお、SELFIES記述子 (化学構造) の選択において、yの予測値だけでなくその分散を考慮したベイズ最適化を用いても OK です。

SELFIESのone-hotベクトルであるSELFIES記述子 x は化学構造と一対一に対応するため、目的変数 y と x との間で構築した回帰モデル y=f(x) を逆解析することで得られる x の値から化学構造を生成できます。これは、y が目標値をもつ化学構造生成、すなわち inverse QSPR/QSAR に対応します。いくつかの化合物データセットを用いて検証したところ、SELFIES の one-hot ベクトルから有意な化学構造を生成できたこと、そして SELFIES 記述子を x とすることでフィンガープリントを x とした場合と同程度の予測性能をもつ回帰モデルを構築できることを確認しました。さらに、inverse QSPR/QSAR のケーススタディを行い、提案手法を用いることでMW, QED, logP が目標値をもつような分子を生成可能でした。提案する SELFIES 記述子に基づく inverse QSPR/QSAR により、分子設計が効率化することを期待します。

興味のある方は、ぜひ論文をご覧いただければと思います。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました