化学構造・分子構造を対象にしたデータ解析・機械学習をするときの二次元構造や三次元構造の考え方

ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティックスの中で、化学構造・分子構造を対象にしてデータ解析や機械学習を実施することもあります。化合物の化学構造から分子記述子を計算したり、記述子 x と物性・活性・特性 y の間で数理モデル y=f(x) を構築したり、数理モデルを用いて y が望ましい値をもつ化学構造を探索したり、既存の化合物の化学構造と類似した新たな化学構造を探索したりします。

実際の化合物は三次元空間 (私たちが存在している空間) に存在しているため、データ解析や機械学習で化学構造を考えるときも、三次元構造を考慮した方が絶対にいい！！、と考えるかもしれません。もちろん三次元構造が重要になることもありますが、どんなときでも三次元構造を考えたほうがよいわけではありません。三次元構造を考慮しないほうがよいときもあります。

はじめに念頭に入れておくべきことは、実際の化合物の化学構造とデータ解析・機械学習で考慮する化学構造の差が、データ解析・機械学習をするときの予測誤差の要因になるということです。化合物においては、y に相当する物性・活性を発現するときの化学構造こそが重要ですが、データ解析や機械学習で考慮できるのは、例えば DFT 計算等で構造最適化した後の化学構造です。構造最適化をして得られた三次元構造に対して、記述子を計算して x とし、y との間でモデルを構築することもあります。真空中で最適化した化学構造が、実際の化合物の y を説明する上で適切であれば問題ありませんが、化合物が物性・活性を発現する環境として、化合物のまわりに溶媒等の別の物質がある中で、真空中で最適な化学構造と実際の構造とが異なる可能性があります。また一つの三次元構造では表現できない場合もあります。実際の化学構造における x (計算不可能) とデータ解析・機械学習で考慮できる x (計算可能) との間に誤差があるということなので、その誤差がモデルの予測誤差の由来になります。

三次元構造を用いることが、必ずしもモデルの予測精度向上につながるわけではありません。y を説明する上で、もしくは x を計算する上で (コンピュータで表現できる) 三次元構造を用いることが適切かどうか不明なときは、二次元構造までを用いるという手もあります。二次元構造までであれば、もちろん立体的な情報は考慮されませんが、計算される記述子に由来する予測誤差を抑えることができます。二次元構造から計算された x を用いたほうが、三次元構造から計算された x を用いるよりモデルの予測精度は高いこともあります。この辺りは、三次元構造で表現できる情報だけでなく、実際の三次元構造と構造最適化した三次元構造との差との関係にも関係しますので、三次元構造で解析したり二次元構造で解析したり試行錯誤が必要です。モデルを適切に評価しながら適切な化学構造を検討するとよいでしょう。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず～サンプルが少ないときのモデル検証～

回帰モデルやクラス分類モデルを検証するときの話です。モデルの検証一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ, ...

さらには、実際の三次元構造と構造最適化した三次元構造との差を説明するような実験条件などの特徴量を検討するのもよいと思います。

予測誤差は全部ノイズ！～ノイズを0にする方向で考えよう！～

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子や合成条件・製造条件・プロセス条件などの説明変数 x と物性・活性・特性などの目的変数 y の間で数理モデル y = f(x) を構築し、構築されたモデルを用いて x の値か...

もう一つ考えるべきことは、三次元構造を考慮すると計算時間がかかるということです。もちろん、一般的には物性・活性が測定された化合物データはサンプル数が小さいため、モデル構築やモデル構築手法の検討をするときは、計算時間の影響はあまりないかもしれません。ただ構築されたモデルを用いて、新たな分子の予測をするとき、多くの仮想的な化学構造に対して物性や活性を予測する必要がありますので、それら全てに対して三次元構造を最適化しないといけなかったり、分子シミュレーションしないといけなかったりします。この計算時間は二次元構造で解析する場合と比べて、非常に大きいです。ときには、計算時間がかかることから、あまり多くの化学構造を予測できないことがあると、本当に最適な分子を取りこぼしてしまう可能性もあります。

そのため、はじめに二次元構造までで化学構造を設計して、いくつかの候補を得た後に、その候補のみ三次元構造を考慮して、候補の中からベストな化学構造を設計する、といったやり方もあります。

以上のように、必ずしも三次元構造を考慮することがベストな選択ではありません。実際の三次元構造とコンピュータ上で再現できる三次元構造との差や、三次元構造の最適化や分子シミュレーションにかかる時間を考慮して、二次元構造と三次元構造をうまく使い分けるとよいでしょう。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。