外れ値の詳細をモデルの直接的逆解析で検討する

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

用いるデータセットの中に外れ値があるときがあります。

モデルの検証やその後における外れ値・外れサンプルの扱い

モデルの検証と、その後についての話です。データセットをトレーニングデータとテストデータに分け、テストデータを用いて、トレーニングデータで構築されたモデルの検証をします。検証の中で、テストデータを精度良く推定できる手法 (回帰分析手法・クラス...

無事に外れ値を検出できたら、

外れ値検出 (Outlier Detection) もしくは外れサンプル検出 (Outlier Sample Detection) ～他の値・サンプルと大きく異なる値・サンプルを見つけよう！～

今回は、外れ値検出 (Outlier Detection) もしくは外れサンプル検出 (Outlier Sample Detection) についてです。他の値と大きく異なる値を見つけたり、他のサンプルと大きく異なるサンプルを見つけたりす...

回帰分析のときにアンサンブル学習で自動的かつロバストに外れサンプルを見つける Python プログラムを公開します

今回は外れサンプルを検出するお話です。外れ値ではなく外れサンプルです。外れ値は、他の値と (大きく) 離れた値のことであり、外れ値がデータ解析のときに悪影響を及ぼすことがあります。ただ、回帰分析のときには、大事なのは説明変数 X と目的変数...

その外れ値の理由や原因などの詳細が知りたくなります。その場合に、モデルの直接的逆解析で検討してみてはいかがでしょうか。

まず、外れ値を含むデータセットを用いて、直接的逆解析が可能なモデルを構築します。

どうしてGMRやGTMRといったモデルの直接的逆解析法は良好な結果を生み出すのか？

回帰モデルを直接的に逆解析ができる、すなわち説明変数 X から目的変数 Y (Y が複数でもOK！) を直接的に推定できる手法である Gaussian Mixture Regression (GMR) や Generative Topogr...

その後、外れ値を含む変数の外れ値のみを入力して、それ以外の変数の値を直接的逆解析で予測します。x に外れ値がであっても y に外れ値がであっても、モデルの直接的逆解析にとっては関係ありませんので、どちらからでも他の変数の値を予測できます。

続いて、外れ値が仮に何らかの正常値であった場合を想定し、正常値を設定した後に、外れ値と正常値の間を何分割かして、例えば十分割して、その分割した値をそれぞれ直接的逆解析して、その値を含む変数以外の変数の値を予測します。このようにすることで、外れ値を含む変数の値が外れ値から正常値に推移したときに、他の変数の値がどのように変化するか予測できます。この推移を確認することで、例えば大きく値が変化している変数は外れ値に影響しているだろうと検討できます。

対象としている外れ値が、材料特性や装置やプラントなどの異常値のときには、異常値から正常値に戻すための指針を議論できます。ぜひご検討ください。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。