分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
x と y の間でモデル構築をするとき、モデル y = f(x) を直接構築するのではなく、間に他の特徴量 z を用いるときもあります。例えば、下の論文では金属有機構造体 (Metal Organic Framework, MOF) を対象にして、構成要素として金属元素や有機化合物の記述子を x とし、結晶構造として細孔、空隙率、密度 などの結晶構造の特徴量を z とし、物性として吸着特性を y として、x と z の間の数理モデル z = g(x) と、y と z の間の数理モデル y = h(z) を構築しました。
z = g(x) を y = h(z) に代入すると、y = h(z) = h(g(x)) となり、結果的に y = f(x) となるわけです。これにより、金属元素や有機化合物の記述子から結晶構造の特徴量を予測でき、さらに結晶構造の特徴量から吸着特性を予測できます。さらに、吸着特性が目標値となるような結晶構造の特徴量を設計したり、結晶構造の特徴量が目標値となるような金属元素や有機化合物を設計したりできます。
他にも、生体内材料を対象にして、材料の合成条件 x、材料の物性 z、動物実験の結果 y との間で、z = g(x) と y = h(z) の2つモデルを構築します。これにより材料の合成条件から合成後の材料の物性を予測したり、材料の物性から動物実験の結果を予測したりできます。さらに、動物実験の結果が目標値となるような材料の物性を設計したり、材料の物性が目標値となるような合成条件を設計したりできます。
こちらのマテリアルズインフォマティクスとプロセスインフォマティックスの融合についても、広い意味で複数のモデルを構築したといえます。
以上のように、z = g(x) と y = h(z) といった複数のモデルを構築する方針にすることで、それぞれのモデルにおいて別のデータセットを使用することができます。y = f(x) を構築するときは、y と x のそろったサンプルしか使用できませんが、x はあるが y はないサンプルもあったりします。こんなときに z はあれば、そのようなサンプルで z = f(x) を構築できます。より多くのサンプルを活用できたり、部分的に論文データでサンプルを補強したりすることができます。
皆さんのお手持ちのデータセットでも、実験手順や評価手順、そして対象とする分子や材料が物性・活性を発現するメカニズムなどに着目して、モデルを複数に分けるとよいかもしれません。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。