モデルの逆解析はxの唯一の解を求めることではありません、ご注意ください

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

x を設計することは、モデルの逆解析に相当します。この逆解析で x を求めることは、y に与えられた何らかの値に対する x の唯一の解を求めることではありませんのでご注意ください。具体的には、例えばモデルの逆解析の性能を評価するため、現状のデータセットのあるサンプルにおける y の値を入力して、同じサンプルの x の値を再現できるか、といったことをされる方がいますが、それを再現できなかったからといって、モデルの逆解析の性能が良くないというわけではありません。その理由を含めて、モデルおよびその逆解析の特性について以下で説明します。

モデル y = f(x) について、基本的に y が結果であり x が原因に相当します。結果 = f(原因) です。そのため、x においてすべての原因が押さえられていれば、一つの x を入力することで、実験誤差によるばらつきはあるにせよ y は一つに定まります。一方で、逆のことはいえません。y の値が一つ定められても、x の値は一つに定まるわけではありません。同じ実験条件 x で実験すれば、再現性のある実験であれば実験結果 y は同じになりますが、同じ実験結果 y になる実験条件 x は一つとは限りません。また化合物 x が1つ決まれば沸点 y は一つに決まりますが、ある沸点をもつ化合物 x は複数ある可能性があります。

このように、y の値を一つ定めても、x の値が一つになるわけではありません。これは疑似的な逆解析だけでなく、直接的逆解析でも同じことです。

どうしてGMRやGTMRといったモデルの直接的逆解析法は良好な結果を生み出すのか？

回帰モデルを直接的に逆解析ができる、すなわち説明変数 X から目的変数 Y (Y が複数でもOK！) を直接的に推定できる手法である Gaussian Mixture Regression (GMR) や Generative Topogr...

モデルの直接的逆解析法で効率的な適応的実験計画法ができるようになりました！[金子研論文]

金子研の論文が Chemometrics and Intelligent Laboratory Systems に掲載されましたので、ご紹介します。タイトルはAdaptive design of experiments based on G...

直接的逆解析では、y が設定した値になる、最も確率の高い x の値を計算していますが、その x の値解が唯一の解とはまったくいっていません。確率は低くても同じ y の値になる x の解は存在する可能性があります。

以上のように、モデルの逆解析の性能は、トレーニング・テストデータ分割による検証やダブルクロスバリデーションでは評価できません。モデルの逆解析により y の値から x の値を設計した後に、(機械学習ではなく) データセットが得られたときの x から y が得られる工程と同様の実験やシミュレーションを実施する必要があります。ご注意ください。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。