公共のデータベースにおいて欲しいデータが無い場合のデータベース活用法

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルを構築するサンプルとして、PubChem、ChEMBL、PolyInfo、Cambridge Structural Database、AtomWork、Materials Project などのデータベースから抽出することや、手持ちのサンプルにこれらのデータベースから抽出したサンプルを追加することがあります。データベースに登録されているサンプルにおいて、すべてのサンプルが同じ情報量を持っているわけではなく、詳細な合成条件や物性・活性の評価条件などがサンプルによっては欠落しており、空白となっているパラメータが存在することもあります。また、手持ちのサンプルでは測定されていたり記録されていたりするパラメータが、データベースには存在しない場合もあります。このような場合に、「公共のデータベースは使えない」と諦めるのではなく、うまく活用する方法があります。

ひとつは、データベースに揃っている情報のみを使用するという方法です。たとえば分子構造の情報のみを使用する場合、分子構造からその物性・活性などを予測するモデルを事前に構築しておくことで、モデルに入力するサンプルとして分子構造を利用できます。他にも、元素の種類や組成など、データベースに含まれている情報で活用できそうなもののみを使用します。

もうひとつは、ないデータを補完して使用する方法です。とりあえずすべてのサンプルを集めておいたり、手持ちのデータセットと連結したりすると、パラメータによっては欠落して空白になっているサンプルがあったり、あるいはサンプルによって空白になっているパラメータがあったりします。この空白部分を補完します。たとえば、iGMR（iterative Gaussian Mixture Regression）が有効な方法のひとつです。

[Pythonコードあり] iterative Gaussian Mixture Regression(iGMR)で欠損値を補完しましょう！(目的変数があってもなくても構いません)

下図のような欠損値 (欠損データ) のあるデータセットがあるとします。穴あきのデータセットですね。こんなときに、穴の空いたところである欠損値を補完する方法を提案します。上の図のようなデータセットを下図のようにできます。たとえば、論文や特許か...

欠損値のないサンプルがデータセットにないときの iGMR の使い方

データセットの中に欠損値があるときは、iGMR が有効であることはこちらに書きました。たとえば、論文や特許からデータを取得したときなど、他のデータ (研究室内や社内のデータなど) と合わせようとしたときに、論文や特許ではいくつかの実験条件が...

最後に、手持ちのデータセットで構築したモデルに公共のデータベースのサンプルを入力して、予測誤差の小さいサンプルのみを使用する方法もあります。

機械学習によりエポキシ樹脂の誘電率予測モデルを構築し、一般に入手可能なデータを用いてモデルの予測精度を向上させ、低誘電率を実現するモノマー構造を提案しました！[積水化学工業&金子研の共同研究論文]

積水化学工業と金子研における共同研究の成果の論文が ACS Applied Polymer Materials に掲載されましたので、ご紹介します。タイトルはMachine Learning Model for Predicting Die...

たとえば、手持ちのデータでは共通の評価条件で物性・活性を評価していた場合に、公共のデータベースにはその評価条件が記載されておらず、同じ条件で評価されたのか異なる条件で評価されたのかがサンプルごとに分かりません。評価条件の統一された手持ちのデータセットで構築したモデルによって精度良く、すなわち誤差小さく予測できたサンプルは、評価条件が同じであると考えられ、そのようなサンプルのみを手持ちのデータセットに追加します。もちろん、必ずしも評価条件が同じとは限らないため、評価に用いるサンプルというよりは、最終的にモデル構築に用いるサンプルとして追加するくらいの使用方法が良いでしょう。

以上の方法により、公共のデータベースの情報量が少ないと感じたときでも、ぜひデータベースを活用できると良いでしょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。