分子設計・材料設計・プロセス設計・プロセス管理において、実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの説明変数 x と、材料の物性・活性・特性や製品品質などの目的変数 y との間で、データセットを用いて数理モデル y = f(x) を構築します。構築したモデルを用いることで、x から y の値を予測したり、y が目標値になるような x の値を設計したりできます。
y が複数あるとき、y ごとに数理モデルを構築できます。x と y1 の間で数理モデル y1 = f1(x) を構築し、x と y2 の間で別の数理モデル y2 = f2(x) を構築する、といった具合です。このとき、y ごと、すなわち f1, f2, … ごとのモデルを構築する際に、同じ x でなくても構いません。単純な例でいえば、f1, f2, … を構築するときに、それぞれ変数選択・特徴量選択して、x からそれぞれ選択された x1, x2, … で、モデルが構築されることがあります。このように y ごとに x が異なっていて、それぞれモデルが構築されても問題ありません。例えば逆解析のときには、すべての x で逆解析用のサンプルを生成して、それぞれのモデル f1, f2, … で選択された x のみ用いて入力すれ y1, y2, … を予測すれば OK です。
分子記述子でも同じことがいえます。例えばモデル f1 は RDKit 記述子を用いることで良好なモデルを構築でき、モデル f2 は mordred 記述子を用いることで良好なモデルを構築できたとき、y ごとに分子記述子は異なりますが、まったく問題ありません。逆解析のときは、分子の化学構造を生成した後に、RDKitで計算した記述子をモデル f1 に入力し、同じ分子の化学構造に対して mordred で計算した記述子をモデル f2 に入力すれば良いのです。
このように、y ごとに異なる x を使ってモデルを構築しても、予測するときや逆解析をするときには問題になりません。基本的な考え方として、サンプルから x を抽出・計算して y を予測することがあります。サンプルが同じであれば、そのような方法で x を抽出・計算しても問題ありません。もちろん、各モデルの解釈をするという観点では、異なる x での解釈結果が得られますのでご注意ください。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。