三次元構造を考慮したモデルを検討する際はシンプルなモデルと比較しよう!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

有機化合物を対象とした時に、二次元構造で考えるか三次元構造で考えるかについては、こちらに記載した通りです。

化学構造・分子構造を対象にしたデータ解析・機械学習をするときの二次元構造や三次元構造の考え方
ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティックスの中で、化学構造・分子構造を対象にしてデータ解析や機械学習を実施することもあります。化合物の化学構造から分子記述子を計算したり、記述子 x と物性・活性・特...

 

三次元構造が、その分子が物性や活性を発現する際の構造とずれていると、それがモデルの誤差になりますので、二次元構造で検討した方が予測精度の高いモデルを構築できることもあります。

無機化合物でも同じことで、例えば DFT 計算で構造最適化して SOAP (Smooth Overlap Atomic Positions) などで数値化することで x としたりしますが、実際の材料においては構造だけでなく、粒子サイズ、形状、表面、局所性などによって物性・活性は異なりますので、単純に元素組成に基づいて x を作成した方が、予測精度の高いモデルを構築できることもあります。もちろん、実験条件やプロセス条件が変わっていたら、それらも x に追加する方が良いです。

実験データを扱う場合には、分子の構造表現として最適なものが事前に分かるわけではありませんので、比較検討することが大切です。もちろん詳細な三次元構造を考慮することは物性・活性の発現のメカニズムの解明にもつながりますので重要ではありますが、それだけでなく、有機化合物の二次元構造や、無機化合物の元素組成や結晶構造に基づく特徴量などのシンプルな x で検討する場合と比較すると良いでしょう。これらの比較に基づいて、三次元構造がどれだけ物性に寄与しているかの検討も可能です。

分子構造を使う場合には、以上のことに注意して解析すると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました