分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルは、予測精度が高いことが重要であり、サンプルや特徴量やモデル構築手法を検討して、予測精度の高いモデルを構築することを目指します。このとき、モデルの予測精度を適切に評価することが必要になってきます。トレーニングデータとテストデータに分割してトレーニングデータで構築したモデルを用いてテストデータを予測したり、ダブルクロスバリデーションで予測したりして、モデルの予測精度を評価します。
このモデルの予測精度の評価として、フィッティングの結果、すなわちトレーニングデータの予測結果はまったく使用しませんので、注意してください。トレーニングデータにおいて y の 実測値と予測値がいくら合うからといって、モデルの予測精度とは何ら関係はありません。フィッティング結果が良好なとき、予測精度が高いモデルもあれば、予測精度が低いモデルもあります。
このように、モデルの予測精度の評価において、フィッティングの結果はまったく用いません。
では、フィッティングの結果はどのようなときに用いるのでしょうか。それは、最終的に使用するモデルの特徴 (予測精度ではありません) を確認するときです。すべてのサンプルを用いて構築された最終的なモデルを、y の予測や逆解析に用います。例えば逆解析において、x の仮想サンプルを大量に生成して、それらをモデルに入力し、y の値を予測することがあります。この逆解析において、y の予測結果を確認すると、y の予測値が思った以上に大きくならなかったり、逆に思ったより小さくならなかったりするときがあります。
では、例えば y の値が大きくなる x のサンプルを設計したいときに、y の予測値が大きくならない要因を確認することを考えます。このとき、フィッティングの結果が参考になります。最終的に用いるモデルなので、すべてのサンプルを用いてモデルを構築することになり、同じサンプルをモデルに入力したときに予測される y の値の範囲を確認します。この範囲が狭く、y の値があまり大きな値になっていないとき、モデル自体が大きい y の値を出力できない数式になっていると考えられます。
この場合は、モデルの予測精度を評価した結果に戻り、別の、近い予測精度をもつモデルを選び直した方がよいかもしれません。モデルの予測精度が低いモデルを選択しないことはもちろんですが、最初に選択したモデルと予測精度があまり変わらなかったら、別のモデルを検討するとよいでしょう。
このようにして、最終的に用いるモデルが予測できる y の範囲を、フィッティングの結果を用いて確認します。あくまで、トレーニングデータ・テストデータ分割やダブルクロスバリデーションでモデルの予測精度を評価した後の話です。ぜひ、モデルを用いた予測やモデルの逆解析をするときは、事前にフィッティングの結果を見て、y の予測値が入りうる範囲を確認しておきましょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。