分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
分子や材料のデータについて、社内や研究室内の古いデータを掘り起こした時や、公共のデータベースからデータを収集した時など、部分的に合成条件やプロセス条件などの情報がないことがあります。例えば、PoLyInfo から高分子データを収集すると、モノマーの分子構造はありますが、重合条件はないことが多いです。
基本的に、機械学習モデルを構築する時には、y の値を再現するのに必要な情報が x に含まれている必要があります。x に必要な情報が含まれていないと、y を説明するのに x として不十分であったり、モデルの逆解析によって y が所望の値となる x の値を設計できたとしても、その y の再現性が悪くなったりすることがあります。
一方で、PoLyInfo でデータ収集する時のように、必要な合成条件・プロセス条件がどうあがいても得られないこともあります。このような時、もし部分的にでも必要な合成条件・プロセス条件があるサンプルが得られていて、かつその条件があまりばらついていなかったら、まずはそのサンプルのみで合成条件・プロセス条件を x に入れずにモデルを構築します。構築されたモデルに合成条件・プロセス条件が不明な他のサンプルを入力し、y の予測値が実測値と近いサンプルのみを選択します。これらのサンプルは、合成条件・プロセス条件が分かっているサンプルの、合成条件・プロセス条件が似ていると考えられるため、そのサンプルをモデル構築用サンプルとして追加します。
部分的にでも合成条件・プロセス条件が分かっているサンプルにおいて、合成条件・プロセス条件がばらついていたら、合成条件・プロセス条件も x に入れてモデルを構築します。合成条件・プロセス条件が不明なサンプルに対しては、何らかの値を仮定してモデルに入力して y を予測します。y の予測値が実測値と近いということは、仮定した合成条件・プロセス条件が本来の合成条件・プロセス条件と近いと考えられるため、そのサンプルをモデル構築用サンプルとして追加します。
どのサンプルでも合成条件・プロセス条件が不明な場合には、モデルの予測精度を考慮したクラスタリングにより、合成条件・プロセス条件が類似していると考えられる、それらのサンプルで予測精度の高いモデルが構築できるサンプル群 (クラスター) を作成します。そして、サンプル群ごとにモデルを構築します。これらのモデルは y の予測には使えませんが、モデルの逆解析に使用して、モデルごとに得られた x で実際に分子や材料を合成します。詳細はこちらをご覧ください。
合成条件・プロセス条件が不明なサンプルを含むデータセットを扱う時は、状況に応じて以上のいずれかの方法で検討すると良いと思います。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。