データセットを読み込んだあとに、まずやったほうがよい基本的なデータの前処理についてです。
最低限、この前処理は行いましょう!
とりあえずオートスケーリング (標準化) しましょうとか、いやいやその前に情報量のない変数は消しておきましょうとか、そんな内容です。最後に、変数間の非線形性を考慮に入れた相関係数についてもまとめています。
パワーポイントのスライドにしましたので、自由にご利用ください。
pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。
興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。
スライドのタイトル
- どうしてデータの前処理をするの?
- オートスケーリング (標準化)
- オートスケーリングの例
- センタリング
- スケーリング
- モデル検証用(テスト)データのオートスケーリング
- 分散が0の変数の削除
- 同じ値を多くもつ変数の削除
- 注意点
- 相関係数の高い変数の組の1つの削除
- しきい値は?どちらを消す?
- 注意
- [発展] 変数間の非線形性を考えた相関係数
質問・コメントがありましたら、twitter・facebook・メールなどを通して教えていただけるとうれしいです。