機械学習モデルの逆解析の評価は、実験(もしくはそれに代わるシミュレーション)でしかできません

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

このモデルに望まれることは、x から y を精度よく予測することです。そのため、予測精度の高いモデルを構築することになり、その予測精度を適切に評価する必要があります。トレーニングデータとテストデータに分割して、トレーニングデータで構築されたモデルをテストデータで検証したり、ダブルクロスバリデーションにより予測性能を検証したりします。これにより、x から y を予測するときの精度を評価できるため、この評価の結果の高いモデルを使用する、といったことができます。

一方で、y から x を予測する、すなわちモデルの逆解析における精度の評価方法について考えます。x から y の予測と同様に考えると、例えばトレーニングデータとテストデータに分割し、トレーニングデータでモデルを構築し、テストデータの y の値を真の値として、それを達成する x をモデルの逆解析で求めた結果と実際の x とがどれくらい近いかで評価する、といったことが考えられます。しかし、これではモデルの逆解析の性能を評価することはできません。それは x が原因で y があることに由来します。

モデルの逆解析はxの唯一の解を求めることではありません、ご注意ください
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

x から y の予測では、もちろん x において y に関係するすべての原因が表現されていることが前提ですが、原因が与えられたときに、もちろん実験誤差などのばらつきはありますが、y の値は1つに決まります。ただ、y の値を1つ設定したときに、それを達成する x が一通りとは限りません。例えば、ある化合物が与えられたら、(測定誤差はさておき) その沸点は1つに決まりますが、ある沸点の値が1つ与えられたときに、それを満たす化合物は1つとは限りません。同じような沸点を持つ複数の化合物が存在します。このように、あるサンプルにおける y の値から x を再現することに意味はありません。そのため、与えられたデータセットだけからでは、モデルの逆解析の性能を評価することはできません。

モデルの逆解析の性能を評価するには、実験が必要になります。y の値から機械学習・データ解析で得られた x について、その x の候補である実験条件で実験を行い、y の値を獲得して評価する必要があります。もちろん、データセットや y によっては、y が分子シミュレーションやプロセスシミュレーションで得られることもありますので、そのときは、実験ではなく分子シミュレーションやプロセスシミュレーションを実施することになります。

ここまで、逆解析の評価をすることを前提として、評価方法について説明しましたが、私は必ずしも逆解析の評価をする必要はないと考えています。そもそも、x から y の予測精度は検証されており、モデルの逆解析は基本的に x から y の予測に基づきます。例えば、大量のサンプルを仮想的に生成して、それらの x から y を予測しています。それに基づいて x の候補を選択しています。ベイズ最適化も、y の予測値だけでなく、その分散を用いますが、考え方としては同様です。さらに、モデルの逆解析の評価でも、評価するために実験するよりは、分子・材料の物性・特性の目標値を達成するための実験をした方が、そもそもの分子設計や材料開発、そしてプロセス開発の目的達成に合致しています。

このように、モデルを評価するためではなく y の目標を達成するために、モデルの逆解析の評価としての実験や分子シミュレーション・プロセスシミュレーションを実施するほうがよいかと考えます。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました