分子記述子とフィンガープリントを組み合わせてモデルの予測精度を向上させる

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

有機化合物を扱う時は、分子構造から x へ適切に変換することが、予測精度の高いモデルを構築する上で重要です。RDKitMordredalvaDescCODESSA など、様々なソフトウェアで分子記述子を計算できますし、分子構造を 0, 1 のビット列で表現するフィンガープリントにも様々な種類があります。

もちろん、分子記述子もフィンガープリントも分子構造に基づいて数値化されていますが、分子記述子には物理化学的な特徴量が含まれていたり、フィンガープリントは 0, 1 に規格化されていたりするので、それぞれ情報の質が異なります。そのため、分子記述子のみを用いるとか、フィンガープリントのみを用いるとか、どちらか一方を選択するのではなく、両方を用いることでモデルの予測精度が向上することがあります。例えば、RDKit 記述子した ECFP6 を単純に横に並べて化合物の x として使用します。

分子記述子とフィンガープリントを組み合わせることで必ずしもモデルの予測精度が向上するわけではありませんが、分子記述子セットとフィンガープリントの様々な組み合わせを検討することでモデルの精度が向上する可能性はあります。x の数が多くなることが気になる方は、Boruta などで特徴量選択をすると良いでしょう。

[解析結果付き] Boruta、ランダムフォレストの変数重要度に基づく変数選択手法
Boruta という、ランダムフォレスト (Random Forest, RF) の変数重要度に基づいた変数選択手法について、パワーポイントの資料とその pdf ファイルを作成しました。いろいろなデータセットを解析しましたが、モデルの推定性...

 

ぜひ、分子記述子セットとフィンガープリントを組み合わせて用いて、モデルの予測精度の向上を検討してみましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました