金子研の論文が Industrial & Engineering Chemistry Research に掲載されましたので、ご紹介します。タイトルは
です。
(追記) 表紙絵に選出されました!
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築します。構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
プロセス設計をする際、Computational Fluid Dynamics (CFD) シミュレーションが活用されており、装置の形状や運転条件などのプロセス条件 x を変化させて CFD シミュレーションを行い、結果である y を確認することを繰り返し、x を最適化します。プロセス設計を高速化する、すなわち少ない CFD シミュレーションの回数で x を最適化するため、機械学習による数理モデルもしくはサロゲートモデル y =f(x) が活用されています。
サロゲートモデルを構築するための、最初の CFD シミュレーションをする x の候補は、実験計画法により設計できます。プロセス設計で大事なことは、装置の性能や達成する要求である、y が目標値を持つプロセス条件 x を予測することです。これはサロゲートモデルの逆解析に相当します。
一般的なモデルの逆解析は、x の仮想サンプルを大量に生成し、それらをモデルに入力して y を予測し、予測値が良好なサンプルを選択する、すなわち順解析を膨大に繰り返す擬似的な逆解析にすぎません。効率化のために最適化手法も用いられますが、人が設定した x の探索範囲における y の予測にすぎず、既存の y を超越する最適化はできません。また、x の数に対して指数関数的に解空間が増大するため、CFDのタイムスケール・空間スケールを考えると、CFD の設定条件や結果のような、x の時空間分布(超高次元)や各種条件を全て考慮した網羅的な逆解析は不可能です。
実験計画法・能動学習で注目されているベイズ最適化により y の予測値だけでなくその分散を用いてデータの外挿領域を探索できるようになりましたが、ベイズ最適化もモデルの擬似的な逆解析であり、結果から原因を予測する真の逆解析は不可能です。
金子研において、y の値から x の値を直接的に予測する、すなわち数理モデルを真の意味で逆解析する手法、モデルの直接的逆解析を開発しました。直接的逆解析法では、実験データを実験条件などの特徴量 x に変換した後に、数理モデルとして x と y の間の関係を同時確率密度関数として複数の正規分布の重ね合わせで表現することで、確率の乗法定理とベイズの定理から、y が与えられた際の x の事後確率密度関数を計算できます。この関数により y の目標値から確率の高い x の値を直接予測できます。
CFD シミュレーションの結果として、最適化したい情報が物理量の分布で与えられることがあります。流速、温度、圧力、各成分の組成といった物理量に対して、機械学習における y を設定する際は、メッシュごとの物理量とします。これにより、y の数は (物理量の数) × (メッシュの数) となり膨大です。モデルの順解析を繰り返す逆解析の場合、すべての y、すなわちメッシュのすべてにおいて予測値が目標を満たす x を探索することは困難です。例えば 1つの y の目標を達成する確率が 90% と高確率であったとしても、y が 100 個あると、全てを達成する確率は 0.9100 でおよそ 0.003% になってしまいます。モデルの直接的逆解析では、すべての y の目標値から、x の値を直接予測できるため、直接的逆解析でこそ CFD シミュレーションの結果に基づいてプロセス変数を最適化できます。
今回は CFD シミュレーションにおける、サロゲートモデルを構築するためのデータセットを獲得するための最初の CFD シミュレーション、サロゲートモデルの構築、サロゲートモデルに予測、サロゲートモデルの直接的逆解析を検討し、各結果について議論しました。さらに CFD シミュレーションの結果の可視化についても議論しました。
興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。
以上です。
質問やコメントなどありましたら、X、facebook、メールなどでご連絡いただけるとうれしいです。