分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
x さえ準備すれば、どんな x の値であっても、モデルに入力して y の値を予測できます。ただ、y の予測値を信用できるか、すなわち y の実測値と合うかどうかは話が別です。モデルには y の予測値を信用できる x の値の領域であるモデルの適用範囲 (Applicability Domain, AD) があります。


AD を設定する、すなわち AD モデルを構築する手法はいろいろありますが、それぞれ x の値を入力して、AD の指標の値が出力されるモデルとなります。指標の値が大きいほど、その x の値で予測した y の値を信用できます。実際、AD を運用する時には、ある x をADモデルに入力した時に AD 内か AD 外かを判断する必要があり、AD の指標の値に閾値を設けることが一般的です。閾値以上を AD 内とし、閾値より小さいと AD 外とします。
AD の設定は教師なし学習であり、AD の閾値を最適化することはできません。一般的には、モデルを構築したサンプルの何% が AD 内に入るか (何% が AD 外になるか) といった値を参考にしながら、AD の指標に基づいて閾値を設定します。例えば 96% (2σ 法)、99.7% (3σ 法) といった値でざっくりと決めてしまうことも多いです。より詳細に検討したい場合には、AD の指標の値と y の予測誤差の絶対値の散布図を見ながら、予測誤差が大きくなりすぎないところに設定するといった決め方もあります。
また、AD のハイパーパラメータを最適化することが可能ですが、

同じ方法で、AD の閾値についても、RMSE が大きくなりすぎないところに閾値を設定するといった使い方もできます。
いずれにしても、この方法であれば AD の閾値を最も良好に設定できる、という方法はありませんので、詳細に検討したい場合には、y の予測値と AD の値の散布図を見ながら、どの値を持つ x の候補を採用するか検討すると良いと思います。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。