分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
用いるデータセットの中に外れ値があるときがあります。

無事に外れ値を検出できたら、


その外れ値の理由や原因などの詳細が知りたくなります。その場合に、モデルの直接的逆解析で検討してみてはいかがでしょうか。
まず、外れ値を含むデータセットを用いて、直接的逆解析が可能なモデルを構築します。

その後、外れ値を含む変数の外れ値のみを入力して、それ以外の変数の値を直接的逆解析で予測します。x に外れ値がであっても y に外れ値がであっても、モデルの直接的逆解析にとっては関係ありませんので、どちらからでも他の変数の値を予測できます。
続いて、外れ値が仮に何らかの正常値であった場合を想定し、正常値を設定した後に、外れ値と正常値の間を何分割かして、例えば十分割して、その分割した値をそれぞれ直接的逆解析して、その値を含む変数以外の変数の値を予測します。このようにすることで、外れ値を含む変数の値が外れ値から正常値に推移したときに、他の変数の値がどのように変化するか予測できます。この推移を確認することで、例えば大きく値が変化している変数は外れ値に影響しているだろうと検討できます。
対象としている外れ値が、材料特性や装置やプラントなどの異常値のときには、異常値から正常値に戻すための指針を議論できます。ぜひご検討ください。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。