ある変数・パラメータを特徴量xに入れるか、もう一つモデルを作るか、削除するか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルの予測精度の向上のため、x に分子・材料・プロセスにおいて重要な変数・パラメータを追加する検討を行うことがあります。ただし、ある変数が有効だからといって、x に追加できないこともあります。最初に考えることは、そのモデルを用いる目的、そして実際にモデルを使用する状況です。

次の実験条件、合成条件、プロセス条件の設計を目的として、モデルを使用する場合には、x に実験結果を入れることはできません。また例えば、設計する際に x の大量の候補を生成して全て予測し、その予測結果の中から良好な x の候補を選択する場合には、量子化学計算、DFT計算やMD計算のように、値を得るのに計算負荷の高い x は使用できません。もちろん、材料を合成した結果からその材料の評価結果を予測したい場合には、合成結果に関する変数を x に入れることができますし、モデルを設計に使用するのではなく、解釈に使用する場合には、実験結果や計算負荷の高い変数も x として使用できます。

モデルを設計に使用する際には、合成結果や実験結果などの変数や、計算負荷の高い変数は x として使用できないという話をしましたが、一方で、それらの変数を x に入れることで予測精度が向上するかどうかは、検討すると良いでしょう。実験結果の変数を x に追加することでモデルの予測精度が向上した場合、現状の x では、実験する際に変化している、もしくは振られているパラメータを全て考慮できているわけではないと考えられます。例えば、温度・圧力などの環境に関するパラメータが固定されていないなどです。また、計算負荷の高い変数を x に追加することで精度が向上する場合には、モデルを用いて設計する際にも、何とかしてその x を得ようという検討のモチベーションになります。

実験結果の変数や計算負荷の高い変数を x に追加する1つの方針として、追加することでモデルの予測精度が向上する x を、別のパラメータから予測するモデルを検討することがあります。例えば、こちらの論文では、

金属有機構造体のモデル化に成功しました![金子研論文]
金子研の論文が Journal of Chemical Information and Modeling に掲載されましたので、ご紹介します。タイトルはCorrelation between the Metal and Organic Co...

 

金属有機構造体を対象にして、構成要素として金属元素や有機化合物の記述子を x とし、結晶構造として細孔、空隙率、密度などの結晶構造の特徴量を y とし、物性として吸着特性を z とします。そして、x と y の間のモデル y = f(x) と、y と z の間のモデル z = g(y) を機械学習により構築します。これにより、構成要素から結晶構造を予測し、その予測された結晶構造から吸着特性を予測できます。

また、こちらの論文では、

機械学習によりバイオマテリアルの材料特性と骨形成率を予測するモデルを構築し、直接的逆解析により新規材料の設計をしました! [相澤研&金子研の共同研究論文]
相澤研と金子研における共同研究の成果の論文が Industrial & Engineering Chemistry Research に掲載されましたので、ご紹介します。タイトルはMachine Learning Model for Pre...

 

まず合成条件を特徴量 X1、材料特性を目的変数 Y1 としてモデル1 (Y1 = f(X1)) を構築します。次に、材料特性 Y1 と動物実験条件 X2 を特徴量、骨形成率を目的変数 Y2 としてモデル2 (Y2 = f(X2, Y1)) を構築します。これにより、合成条件から材料特性を予測することができ、さらに予測された材料特性と動物実験条件から骨形成率を予測できます。

これらのように、複数のモデルを構築する時に重要なことは、それぞれのモデルを構築するデータセットは別々で良いということです。一方のデータセットにおけるサンプル数が少なくても、もう一方のデータセットについてはサンプルをより収集できる場合には、どんどん集めてサンプルを増やしましょう。そうすることで、その一方のモデルの精度が向上し、全体としての予測精度も向上することになります。

モデルの x として使用するパラメータを検討する際には、ぜひご活用ください。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました