モデルの予測精度の向上は手段であって目的ではありません

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

よく議論になるのは、モデルの予測精度です。もちろんモデルの予測精度を向上させることは重要ですが、そもそも、データ解析・機械学習は分子設計、材料設計、プロセス設計、プロセス管理・制御における何らかの目的を達成するための1つの手段であることから、データ解析・機械学習によって構築されるモデルの予測精度の向上も、1つの手段でしかありません。

モデルの予測精度を向上できれば他はどうなっても OK、というわけにはいきません。例えば、いくらモデルの予測精度が向上するからといって x の中に 実験結果を入れてしまうと、y の目標値を達成する x の値を設計できなくなってしまう、すなわち実験条件を設計できなくなってしまうため、予測精度が向上したモデルを使うことはできません。また、モデルの予測精度を向上させようと、実測値 vs. 予測値プロットの対角線から離れているサンプルを、次々と、何も考えずに削除していくと、モデルの予測誤差は小さくなり予測精度は向上する一方で、モデルの適用範囲は狭くなってしまうため、x の設計できる範囲が狭まってしまいます。他にも、y の値を大きくしたり小さくしたりする原因となるパラメータ (変数) を検討するのが目的であるときに、構築したモデルの解釈まで行う必要がありますが、モデルの予測精度を上げようモデルを複雑化すると、モデルの解釈はやりにくくなってしまいます。

以上のように、モデルの予測精度の向上のみを目的として設定してしまうと、本来の目的に対する到達度が向上しない手段を選択してしまうことがあります。もちろん、本来の目的を達成するためにも、モデルの予測精度を向上させることは重要事項の1つであることが多いです。本来の目的を見失わないようにしながら、モデルの予測精度向上も一つの手段ととらえて、検討するとよいと思います。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました