ドメイン知識を考慮して機械学習における特徴量・モデルを検討する

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルの予測精度を向上させる一つの方針として、ドメイン知識を活用することが挙げられます。その活用の仕方にも色々ありまして、基本的には柔軟に活用していただければ全く問題ありませんが、ある程度方針があった方がその検討もしやすいと思いますので、方針の例としていくつか挙げます。

1つは、ドメイン知識を活用して x の追加をします。例えば、これまで得られた知見に基づく物理モデル・物理式の形を模倣するような、いくつかの分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの四則演算、変数変換などで新しい x を作成します。

分子構造、もしくは部分構造を使う場合には、ドメイン知識からそのまま物理モデル、物理式を導けなくても、部分構造を含む構造を工夫することでドメイン知識を活用できます。ドメイン知識に基づいて最適化された構造から x を計算することも考えられます。これはもちろん、有機化合物の分子だけでなく、無機化合物の結晶構造を考える上でも有効な考え方です。

ドメイン知識から得られる物理モデル、物理式は x だけでなく y にも活用できます。例えば、こちらの論文では、

ゼオライトの吸着性能を予測するモデルの開発と新規ゼオライトの設計をしました![金子研論文]
金子研の研究成果の論文が Industrial & Engineering Chemistry Research に掲載されましたので、ご紹介します。タイトルはDevelopment of a Model for Predicting th...

 

吸着等温線のパラメータを y のデータからフィッティングし、得られた値を新たな y として、ゼオライトの情報から予測しました。新たなゼオライトの吸着量を予測する際も、ゼオライトの情報からパラメータを予測し、そのパラメータから吸着等温線として吸着量が求められます。

もちろん、ドメイン知識として使用する物理モデル、物理式が完全に合っているわけではないこともあります。x として追加する場合、もしくはそのまま y を予測するモデルを構築する場合に、使用する物理モデル、物理式を、これまでの物理式、物理モデルを参考にしながら新たに作ることも、方針として挙げられます。

以上のように、ドメイン知識を活用すると言っても、いろんな方針がありますので、ぜひお手持ちのデータセットや、扱う実験系、シミュレーション系に基づいて、様々に議論しながら検討すると良いでしょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました