新たな3D-QSARを開発しました![金子研論文]

金子研の論文が Molecular Informatics に掲載されましたので、ご紹介します。タイトルは

 

Two‐ and three‐dimensional quantitative structure‐activity relationship models based on conformer structures

 

です。これは学部卒の新田楓美香さんが四年生のときに取り組んだ研究の成果です。

一般的な 3D-QSAR (Quantitative Structure-Activity Relationship) においては、化合物を用いたモデル構築や新たな化学構造の活性の予測において、化学構造の3次元構造を最適化します。たとえば量子化学計算によって構造最適化をするとき、基本的には化学構造が真空中に存在することを仮定します。しかし、たとえ化学構造の最安定な構造が得られたとしても、たとえば医薬品設計で考えたとき、実際の分子の周辺には水分子やタンパク質などがあることから、実際の化学構造と真空中で安定な化学構造とは異なると考えられます。さらに、実際には分子は最安定化構造のようなある唯一の構造として存在しているわけではなく、周辺の水分子やタンパク質などとの相互作用により、構造は変化しています。分子が発現する薬理活性には、実際の分子の化学構造を的確に表現することが重要と考えます。

そこで、分子の配座異性体 (conformer) をすべて考慮した 3D-QSAR を提案しました。一つの分子において、まず conformer をたくさん発生させます。次に、すべての conformer に対して、三次元構造記述子を計算します (たとえば alvaDesc で計算できます)。そうすると、一つの分子における ある記述子に対して、複数の値が得られます。それを分布として捉えて、そこから統計量を計算します。具体的には、最大値・最小値・中央値・平均値です。これを、提案する三次元記述子とします。Conformer ごとに計算される記述子の数を m とすると、統計量が 4 つのときは記述子の数が m × 4 となります。そして、二次元構造記述子 (これは conformer に依存しませんので唯一の値となります) と提案する三次元記述子をつなげて、最終的な記述子セットとします。

記述子の数が非常に多くなるため、論文中では Boruta で記述子選択をしています。

[解析結果付き] Boruta、ランダムフォレストの変数重要度に基づく変数選択手法
Boruta という、ランダムフォレスト (Random Forest, RF) の変数重要度に基づいた変数選択手法について、パワーポイントの資料とその pdf ファイルを作成しました。いろいろなデータセットを解析しましたが、モデルの推定性...

 

内容の詳細は論文をご覧いただけますと幸いです。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました