今回は、外れ値検出 (Outlier Detection) もしくは 外れサンプル検出 (Outlier Sample Detection) についてです。他の値と大きく異なる値を見つけたり、他のサンプルと大きく異なるサンプルを見つけたりする手法です。
そんな有用な 外れ値検出・外れサンプル検出について、pdfとパワーポイントの資料を作成しました。外れ値検出の具体例や計算方法について説明されています。pdfもスライドも自由にご利用ください。
pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。
興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。
外れ値検出・外れサンプル検出 の概要
- データセットの分布から外れたデータを検出する
- もちろんデータセットにはばらつきがあるが、ばらつき過ぎていると考えられるデータを外れ値とする
- ロバストな方法、時系列データに適した方法、複数の変数を考慮する
方法もある - 3σ法
- Hampel identifier
- 平滑化(スムージング)による外れ値検出
- データ密度の推定による外れ値 (外れサンプル) 検出
スライドのタイトル
- 外れ値検出とは?
- 3σ法
- 3σ法の例
- 3σ法の問題点
- Hampel Identifier
- Hampel Identifierの例
- 平滑化(スムージング)による外れ値検出
- 平滑化(スムージング)による外れ値検出の例
- データ密度による外れ値(外れサンプル)検出
- データ密度の推定方法
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。