分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
x を設計することは、モデルの逆解析に相当します。この逆解析で x を求めることは、y に与えられた何らかの値に対する x の唯一の解を求めることではありませんのでご注意ください。具体的には、例えばモデルの逆解析の性能を評価するため、現状のデータセットのあるサンプルにおける y の値を入力して、同じサンプルの x の値を再現できるか、といったことをされる方がいますが、それを再現できなかったからといって、モデルの逆解析の性能が良くないというわけではありません。その理由を含めて、モデルおよびその逆解析の特性について以下で説明します。
モデル y = f(x) について、基本的に y が結果であり x が原因に相当します。結果 = f(原因) です。そのため、x において すべての原因が押さえられていれば、一つの x を入力することで、実験誤差によるばらつきはあるにせよ y は一つに定まります。一方で、逆のことはいえません。y の値が一つ定められても、x の値は一つに定まるわけではありません。同じ実験条件 x で実験すれば、再現性のある実験であれば実験結果 y は同じになりますが、同じ実験結果 y になる実験条件 x は一つとは限りません。また化合物 x が1つ決まれば沸点 y は一つに決まりますが、ある沸点をもつ化合物 x は複数ある可能性があります。
このように、y の値を一つ定めても、x の値が一つになるわけではありません。これは疑似的な逆解析だけでなく、直接的逆解析でも同じことです。
直接的逆解析では、y が設定した値になる、最も確率の高い x の値を計算していますが、その x の値解が唯一の解とはまったくいっていません。確率は低くても同じ y の値になる x の解は存在する可能性があります。
以上のように、モデルの逆解析の性能は、トレーニング・テストデータ分割による検証やダブルクロスバリデーションでは評価できません。モデルの逆解析により y の値から x の値を設計した後に、(機械学習ではなく) データセットが得られたときの x から y が得られる工程と同様の実験やシミュレーションを実施する必要があります。ご注意ください。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。