ランダムフォレスト(Random Forests, RF)～アンサンブル学習で決定木の推定性能を向上！～

2017.07.182020.08.15

ランダムフォレスト(Random Forest, RF)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、RFで何ができるか、RFをどのように計算するかが説明されています。pdfもスライドも自由にご利用ください。

pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。

興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。

RFの概要

サンプルと説明変数とをランダムにサンプリングして、決定木をたくさん作る
複数の決定木の推定結果を統合して、最終的な推定値とする
アンサンブル(集団)学習 (Ensemble learning) の１つ
決定木と比べて精度は高くなることが多いが、モデルを解釈することは難しい
回帰分析にもクラス分類にも使える
説明変数の重要度を議論できる

スライドのタイトル

Random Forest (RF) とは？
RFの概略図
どのようにサブデータセットを作るか？
サブデータセットの数・説明変数の数はどうする？
どのように推定結果を統合するか？
説明変数 (記述子) の重要度
Out-Of-Bag (OOB)
OOBを用いた説明変数 (記述子) の重要度
決定木の設定はどうする？

参考資料

金明哲, Rによるデータサイエンス～データ解析の基礎から最新手法まで～, 森北出版 (2007)

RFのPythonのプログラムは、こちらの課題16をご参照ください。

以上です。

質問・コメントがありましたら、twitter・facebook・メールなどを通して教えていただけるとうれしいです。

タイトルとURLをコピーしました