特徴量として実測値ではなく推定値を用いたほうがモデルの予測精度が高くなるときってありますよね

分子設計・材料設計・プロセス設計において、分子・材料・プロセスの特徴量と x と分子や材料の物性・活性・特性 y との間で、データセットを用いて数理モデル y = f(x) を構築して、モデルを用いて x の値から y の値を予測したり、y の目標値を達成するための x を設計したりします。

対象とする系において、モデルは一つしか構築しない、とは限りません。対象とする材料系や反応系やプロセスの背景を踏まえて、複数のモデルを構築することもあります。モデルごとに x があり、y がありますので、例えばあるモデルの y が別のモデルの x になることもあります。実験Aと実験Bが直列している状況で、実験Aの結果から実験Bの結果を予測する場合や、いくつかの装置が連なったプロセスにおいて前工程から後工程を予測する場合などです。

あるモデルaの y を別のモデルbの x にするとき、実測値を使用するのかモデルaの推定値を用いるのか、検討します。もちろん二つのモデルを効果的に活用するために、推定値しか使用できないケースはあります。y を予測したいときに x の特徴量の値が得られなければ、モデルに入力ができませんので、その特徴量を x として使用することはできません。一方で特徴量の実測値を使えるときには、実測値を使うか推定値を使うか選択できます。

基本的には、実測値のような実データを使った方がモデルの予測性能が高くなる傾向があります。しかし、モデルの予測精度が必ず高くなるわけではありません。実測値には、実験誤差等のノイズが含まれます。(ノイズの含まれない) x から推定された、複数の x から総合的に計算された y の値のほうが、ノイズの含まれる y の実測値より y の本質的な変動を表現していることがあります。このとき、y の推定値を、別のモデルの x として使用することで良好な結果が得られます。

それぞれのモデルを構築するときのサンプルも異なると思いますので、推定値の方が x としてモデル構築や予測をするときに扱いやすいです。もちろんモデルを複数に分けずに転移学習するような方法もあり、そちらも検討すると良いと思いますが、モデルを解釈するという点では、特徴量の重要度を検討できることから、複数のモデルを検討する方がやりやすいときもあります。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました