ランダムフォレスト(Random Forests, RF)~アンサンブル学習で決定木の推定性能を向上!~

ランダムフォレスト(Random Forest, RF)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、RFで何ができるか、RFをどのように計算するかが説明されています。pdfもスライドも自由にご利用ください

pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。

興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。

RFの概要

  • サンプルと説明変数とをランダムにサンプリングして、決定木をたくさん作る
  • 複数の決定木の推定結果を統合して、最終的な推定値とする
  • アンサンブル(集団)学習 (Ensemble learning) の1つ
  • 決定木と比べて精度は高くなることが多いが、モデルを解釈することは難しい
  • 回帰分析にもクラス分類にも使える
  • 説明変数の重要度を議論できる

スライドのタイトル

  • Random Forest (RF) とは?
  • RFの概略図
  • どのようにサブデータセットを作るか?
  • サブデータセットの数・説明変数の数はどうする?
  • どのように推定結果を統合するか?
  • 説明変数 (記述子) の重要度
  • Out-Of-Bag (OOB)
  • OOBを用いた説明変数 (記述子) の重要度
  • 決定木の設定はどうする?

参考資料

  • 金 明哲, Rによるデータサイエンス~データ解析の基礎から最新手法まで~, 森北出版 (2007)

RFのPythonのプログラムは、こちらの課題16をご参照ください。

以上です。

質問・コメントがありましたら、twitter・facebook・メールなどを通して教えていただけるとうれしいです。

タイトルとURLをコピーしました