何かの異常で外れサンプルなのか、外挿領域のため外れサンプルなのか、見分けるための一つのアイデア

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデル構築のとき、y の実測値と予測値の誤差が大きいと、そのサンプルは外れサンプルかもしれない、と考えることがあります。データ化学工学研究室でも、外れサンプルの検出方法について、これまで開発してきました。

回帰分析のときに外れサンプルを検出する手法を開発しました [金子研論文]

応化先生と生田さんが論文 “Automatic outlier sample detection based on regression analysis and repeated ensemble learning” について話しています...

このような方法で外れサンプルを検出することはできますが、その外れサンプルがどのような素性のサンプルなのかは分かりません。実は分析に失敗していて y に異常があったり、実験条件が間違えていて x に異常があったりする、異常データを意味する外れサンプルもあれば、サンプルが他のデータセットの外挿領域にある (異常データは含まない) ため外れサンプルとみなされているサンプルもありますが、それらを見分けることができません。そこで、二種類の外れサンプル

異常データをもつ外れサンプル
外挿領域にある外れサンプル

のどちらなのかを見分けるための一つのアイデアをお話しします。

外挿領域にある外れサンプルであれば、そのサンプルを含めてモデルを構築したとしても、そのモデルは他のサンプルを問題なく予測できるはずです。一方で、x や y に異常がある外れサンプルであれば、そのサンプルを含めて構築されたモデルは、含めないで構築されたモデルと比べて、他のサンプルを予測しにくい (予測が外れる) ものになると考えられます。

そのため、外れサンプルを含む場合と含まない場合とでそれぞれモデルを構築し、他のサンプルをどれくらい予測できるかを確認します。トレーニングデータ・テストデータに分割するにしても、ダブルクロスバリデーションをするにしても、