yが0(もしくは1)の削除したサンプルをどう使うか?

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデル構築のとき、こちら↓に示したように y が 0 のサンプル (もしくは 1 や 100) のサンプルを削除することで、モデルの予測精度が向上したり、サンプル全体の誤差が小さくなったりすることがあります。

yが0や1(100)の値をもつデータセットの扱い方
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

y の値が大きくなるような分子設計・材料設計・プロセス設計をしたいとき、予測精度の向上や誤差の低減自体はよいのですが、y が 0 のサンプルをモデル構築に使っていないことに由来する問題もあります。それは、一言でいえば、モデルの逆解析のときに y が 0 のサンプルもしくはそれに近いサンプルが探索され提案されてしまうことです。

特にベイズ最適化では、y の目標値が高いときにモデルの逆解析において外挿を探索する傾向があります。y が 0 のサンプルと 0 より大きいサンプルそれぞれで、y の発現するメカニズムが異なるもしくは x と y の関係が異なるということであれば、y が 0 より大きいサンプルで構築されたモデルにとって、0 のサンプルも外挿になる可能性があります。外挿を探索するときに、y が 0 のサンプルやそれに近いサンプルが外挿として提案されてしまい、それをまた実験することになってしまうと非効率です。

そのため 0 のサンプルを有効に活用して、y が 0 のサンプルやそれに近いサンプルが提案されないようにすることを考えます。具体的には、y が 0 のサンプルでモデルの適用範囲 (Applicability Domain, AD) を構築し、使用します。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

ただ、通常の AD とは使用方法が異なることがあります。通常は、AD の中であれば y の予測値を信頼できるため、なるべく AD 内から選択しようとします。一方で y が 0 のサンプルの AD では、AD 内ということは y が 0 のサンプルに近い、ということなので AD の中に入ったものは選択されないようにします。このようにすることで、外挿を探索しながらも、y が 0 のサンプル付近の外挿は探索されなくなります。

以上のように、y が 0 のサンプルを削除してモデル構築をした場合でも、削除したサンプルを有効に活用することで、効果的な分子設計・材料設計・プロセス設計ができます。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました