分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデル構築や構築されたモデルによる新しいサンプルの予測によってモデルの検討しているときに、y の予測結果を確認すると誤差の大きなサンプルがあったり、どのモデルでもクラス分類の結果が合わないサンプルがあったりすることがあります。そのような外れサンプルは、対象のデータセットに対して適切でないモデル構築手法や、特徴量 x の y を説明するための情報量の不足に由来して、上手く予測できなかった場合もあれば、実験ミスやデータ収集するときの転記ミスなどによって生じる場合もあります。前者のモデル構築に由来する場合は、モデル構築手法や特徴量の検討などによって対処できますが、後者の実験データに由来する場合は、サンプル自体を検討する必要があります。場合によっては、サンプルを修正したり、サンプルを削除したりします。
このように外れサンプルを検討することは、モデルの予測精度向上に向けた重要な対応の一つです。
外れサンプルの修正もしくは削除を検討するとき、一度に複数の外れサンプルがあるときでも、1つずつ外れサンプルを検討し、検討後はモデル構築から再度行うようにしましょう。例えば、y の 実測値と予測値の間の誤差を見て外れサンプルを検討している場合、最も誤差の大きいサンプルのみ外れサンプルとして検討します。二番目に誤差の大きいサンプルは、まだ外れサンプルとはせず、最初の外れサンプルを修正したり削除したりした後に、改めてモデル構築の検討をしてから外れサンプルについて考えます。
誤差が大きいサンプルは一気に対処した方が効率的と、考える人もいるかと思いますが、これらのサンプルのすべてが外れサンプルというわけではなく、他の外れサンプルの影響を受けただけでもともとは正常なサンプル、ということがあります。重要なことは、1つ外れサンプルがあるときには、他のサンプルはその外れサンプルの影響を受けて予測されうるということです。自分自身は外れサンプルではないにもかかわらず、外れサンプルを含むデータセットで構築されたモデルにより、y の予測値が外れてしまった、という可能性もあります。
このような場合、最初の外れサンプルに適切な処置をした後に、改めてモデル構築をすることで、問題なく 予測できることもあります。実際には外れサンプルではないサンプルについては、これで問題なく予測できます。このように、モデル構築および予測の結果において、複数のサンプルが外れサンプルのように見えたとしても、その中で最も外れているサンプルから一つずつ、サンプルの修正もしくは削除といった対処、モデル構築および予測、外れサンプルの検討を繰り返すようにしましょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。