分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルを構築するサンプルとして、PubChem、ChEMBL、PolyInfo、Cambridge Structural Database、AtomWork、Materials Project などのデータベースから抽出することや、手持ちのサンプルにこれらのデータベースから抽出したサンプルを追加することがあります。データベースに登録されているサンプルにおいて、すべてのサンプルが同じ情報量を持っているわけではなく、詳細な合成条件や物性・活性の評価条件などがサンプルによっては欠落しており、空白となっているパラメータが存在することもあります。また、手持ちのサンプルでは測定されていたり記録されていたりするパラメータが、データベースには存在しない場合もあります。このような場合に、「公共のデータベースは使えない」と諦めるのではなく、うまく活用する方法があります。
ひとつは、データベースに揃っている情報のみを使用するという方法です。たとえば分子構造の情報のみを使用する場合、分子構造からその物性・活性などを予測するモデルを事前に構築しておくことで、モデルに入力するサンプルとして分子構造を利用できます。他にも、元素の種類や組成など、データベースに含まれている情報で活用できそうなもののみを使用します。
もうひとつは、ないデータを補完して使用する方法です。とりあえずすべてのサンプルを集めておいたり、手持ちのデータセットと連結したりすると、パラメータによっては欠落して空白になっているサンプルがあったり、あるいはサンプルによって空白になっているパラメータがあったりします。この空白部分を補完します。たとえば、iGMR(iterative Gaussian Mixture Regression)が有効な方法のひとつです。


最後に、手持ちのデータセットで構築したモデルに公共のデータベースのサンプルを入力して、予測誤差の小さいサンプルのみを使用する方法もあります。

たとえば、手持ちのデータでは共通の評価条件で物性・活性を評価していた場合に、公共のデータベースにはその評価条件が記載されておらず、同じ条件で評価されたのか異なる条件で評価されたのかがサンプルごとに分かりません。評価条件の統一された手持ちのデータセットで構築したモデルによって精度良く、すなわち誤差小さく予測できたサンプルは、評価条件が同じであると考えられ、そのようなサンプルのみを手持ちのデータセットに追加します。もちろん、必ずしも評価条件が同じとは限らないため、評価に用いるサンプルというよりは、最終的にモデル構築に用いるサンプルとして追加するくらいの使用方法が良いでしょう。
以上の方法により、公共のデータベースの情報量が少ないと感じたときでも、ぜひデータベースを活用できると良いでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。