有機化合物の化学構造から物性・活性を予測する際、少なくともRDKit記述子・フィンガープリントとは比較しよう!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

有機化合物を扱うデータ解析・機械学習では、有機化合物の化学構造に基づく情報を x として加え、y との間でモデルを構築します。モデルの予測精度を高めるためには、化学構造をどのように考慮すれば良いか、例えば3次元構造を考慮したり、グラフ構造として考えたり、部分構造ごとに考慮したり、スペクトルを用いたり、画像として扱ったり、さまざまに検討されていますし、新たな手法が考案されています。

新たな手法を提案する際は、既存の手法との比較検討が重要です。手法としての新しさがあっても、既存の方法の方がモデルの予測精度が高かったり、解釈性が高かったりする場合、既存の手法の方が優れています。標準的であり、多くの人が実行できる簡単な方法として、RDKit 記述子や各種フィンガープリントを x として、y との間で機械学習モデルを構築する方法は、少なくとも提案手法と比較するようにしましょう。

Python を使えれば、RDKit を用いて、RDKit 記述子や ECFP4、MACCS Keys などのフィンガープリントを計算できますし、scikit-learn で機械学習モデルを構築することが可能です。もちろん、この方法では2次元構造しか考慮できませんが、それだけでも十分に予測精度の高いモデルを構築できることがあります。ただし、この手法との比較はあくまで一例であり、例えば3次元構造を考慮した新たな記述子を提案する際には、既存の3次元記述子と比較する必要があります。

そもそも、新しい手法を考案する前に、長年のスタンダードな方法で十分に予測精度の高いモデルを構築できることも多いので、まず最初に検討すると良いでしょう。

[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第8章の一部
2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍 「化学のための Pythonによるデータ解析・機...

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました