分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデル構築のとき、y の実測値と予測値の誤差が大きいと、そのサンプルは外れサンプルかもしれない、と考えることがあります。データ化学工学研究室でも、外れサンプルの検出方法について、これまで開発してきました。
このような方法で外れサンプルを検出することはできますが、その外れサンプルがどのような素性のサンプルなのかは分かりません。実は分析に失敗していて y に異常があったり、実験条件が間違えていて x に 異常があったりする、異常データを意味する外れサンプルもあれば、サンプルが他のデータセットの外挿領域にある (異常データは含まない) ため外れサンプルとみなされているサンプルもありますが、それらを見分けることができません。そこで、二種類の外れサンプル
- 異常データをもつ外れサンプル
- 外挿領域にある外れサンプル
のどちらなのかを見分けるための一つのアイデアをお話しします。
外挿領域にある外れサンプルであれば、そのサンプルを含めてモデルを構築したとしても、そのモデルは他のサンプルを問題なく予測できるはずです。一方で、x や y に異常がある外れサンプルであれば、そのサンプルを含めて構築されたモデルは、含めないで構築されたモデルと比べて、他のサンプルを予測しにくい (予測が外れる) ものになると考えられます。
そのため、外れサンプルを含む場合と含まない場合とでそれぞれモデルを構築し、他のサンプルをどれくらい予測できるかを確認します。トレーニングデータ・テストデータに分割するにしても、ダブルクロスバリデーションをするにしても、
予測結果を比較するときは、サンプルを正確に合わせるとよいでしょう。
このとき、外れサンプルを含むモデルと含まないモデルとで、予測誤差があまり変わっていなかったり、予測誤差が小さくなったりしていれば、外挿領域にある外れサンプルといえます。一方、予測誤差が大きくなっていれば、異常データをもつ外れサンプルといえます。
外れサンプルの素性を知りたい場合は、ぜひ活用していただければと思います。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。