応化先生と生田さんがアンサンブル学習 (ensemble learning) について話しています。

応化：今日はアンサンブル学習 (ensemble learning) についてです。

生田：アンサンブル？音楽関係ですか？

応化：いえ、合奏とか合唱とかのアンサンブルではありません。ハーモニーという意味では同じかもしれませんが、今回は統計関係のアンサンブル学習です。

生田：お願いします！

応化：アンサンブル学習は、クラス分類モデルや回帰分析モデルの推定性能を上げるための方法の一つです。まずは簡単な例を見てみましょう。下の図をご覧ください。

生田：「+」と「－」をクラス分類するモデルが３つ、あと多数決ですか？

応化：そうですね。一番左が、正解のクラスです。+ と－とを分類する問題ですが、見やすいように３つのサンプルとも正解を + としています。３つのモデルの推定結果がその左です。それぞれ、一つだけ－と判定してしまい、正解率は 67% ですね。ただ、一番左の、３つのモデルの多数決をとった結果を見てみましょう。

生田：それぞれのサンプルで、－と判定しているモデルが１つありますが、残りの２つのモデルは + と判定しています。なので、多数決すると + になります。正解率 100% ！

応化：その通りです。このように、複数の異なるモデルを構築して、推定するときはそれらのモデルの推定結果を統合するのがアンサンブル学習です。

生田：上の例では実際に正解率が上がっていますし、アンサンブル学習いい感じですね。

応化：もちろん、上は理想的な例ですので、いつもあんなに正解率が上がるわけではありません。ただ、基本的な理論は上の図の通りです。

生田：まさに、三人寄れば文殊の知恵、ですね。

応化：そうですね。わかりやすい例として、決定木 (Decision Tree, DT) をアンサンブル学習すると、ランダムフォレスト (Random Forests, RF) になります。

決定木(Decision Tree, TD)～直感的に分かりやすいモデル～

決定木(Decision Tree, TD)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、決定木で何ができるか、決定木をどのように計算するかが説明されています。pdfもスライドも自由にご利用ください。...

ランダムフォレスト(Random Forests, RF)～アンサンブル学習で決定木の推定性能を向上！～

ランダムフォレスト(Random Forest, RF)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、RFで何ができるか、RFをどのように計算するかが説明されています。pdfもスライドも自由にご利用く...

生田：木をたくさん生やして、森 (フォレスト) にする、って感じですね。

応化：その通りですね。もちろん、決定木でなくても、どんな回帰分析手法・クラス分類手法でも、アンサンブル学習できます。

たくさんのモデルの作り方

生田：どうやって複数のモデルを作るんですか？

応化：サンプルや説明変数 (記述子・特徴量・入力変数) を変えてモデルを作ります。

生田：サンプルや説明変数を変える？それぞれ、モデル構築用データとして与えられていますよね？

応化：たとえば、モデル構築用データのサンプルから、ランダムにいくつか選んで、新たなデータセットをつくります。これをサブデータセットといいます。サブデータセットごとにモデルをつくるのです。このモデルをサブモデルといいます。

生田：なるほど、100 サンプルからランダムに 90 サンプルを選ぶ、とかですよね。ランダムに選ぶので、サブデータセットごとに 90 サンプルの内容が変わり、その結果として、サブモデル、つまり回帰モデルやクラス分類モデル、が変わるって感じですか。

応化：その通りです。このようにサンプルを選ぶことをリサンプリング (resampling) といいます。リサンプリングのやり方として、

・重複を許してサンプルを選ぶ方法：ブートストラップ法 (bootstrap resampling or bootstrapping)

・重複を許さずサンプルを選ぶ方法：ジャックナイフ法 (Jackknife resampling or jackknifing)

の２つの方法があります。

生田：いくつのサンプルを選べばよいの？ってことはとりあえず置いておいて、重複を許すことについて質問です。重複を許すってことは、A, B, C, D, Eのサンプル５つから３つ選ぶとき、A, A, D とかになる可能性があるってことですか？

応化：そうです。

生田：同じサンプルが２つ以上データセット内にあるのは違和感です。そのようなデータセットで回帰モデルやクラス分類モデルを作るときに問題はないのですか？

応化：気持ちはわかります。ただ、複数回選ばれたサンプルの誤差がより小さくなるよう学習が行われるだけで、学習のときに問題はありません。

生田：それならよかったです。

応化：また、ジャックナイフ法では、先ほどの質問にあった通り、いくつのサンプルを選ぶのか決めなければなりません。しかし、ブートストラップ法では、重複を許してモデル構築用データのサンプル数だけ選ぶのが一般的であり、楽です。

生田：ブートストラップ法では選択するサンプル数を決めなくてもいいんですね。モデル構築用サンプルが100あったとき、その中から重複を許して 100 サンプル選べばよいと。

応化：その通りです。ちなみにこの方法は、bootstrap aggregating の略で、bagging (バギング) と呼ばれています。

生田：へー。

応化：サンプルからではなく、説明変数から選ぶときは、同じ変数があっても無意味なので、ジャックナイフ法を使う必要があります。このときは選択する変数の数を決めなければなりません。

生田：どうやって選べばよいのですか？

応化：たとえば、選択する変数の割合を、10%, 20%, …, 80%, 90% とか変えて、クロスバリデーションをするとよいと思います。クロスバリデーションはこちらをご覧ください。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

生田：わかりました！

応化：ちなみに、ランダムフォレストでは、サンプルをブートストラップ法で選び、同時に説明変数をジャックナイフ法で選ぶことで、サブデータセットを作成し、サブモデルとしての決定木をつくっています。わたしは、ランダムフォレストでもクロスバリデーションで選択する変数の割合を決めています。

生田：サブデータセットの数はどうしますか？

応化：多いに越したことはありません。ただ、多いと計算時間がかかるのですよね。わたしの場合、サンプル数が多くて計算時間を待てないときは 100 にしますが、基本的には 1000 にしています。

生田：了解です！サブデータセットごとにサブモデルを作るときは、モデル構築用データで一つのモデルを作るときと同じですか？

応化：はい、同じです。クラス分類モデルでも、回帰分析モデルでも、ハイパーパラメータがあったらクロスバリデーションなどで最適化しましょう。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

サブモデルの統合

生田：複数のサブモデルを統合するとき、クラス分類では多数決をしていましたが、回帰分析ではどうしますか？

応化：複数の推定値の平均値にしたり、中央値にしたりします。

生田：中央値のほうがロバストなんですよね？

ロバストなモデル・手法・方法ってどういうこと？推定性能が高い、とは違います！

応化先生と生田さんがロバストなモデルについて話しています。応化：今回は、ロバスト (robust) についてです。日本語に訳すと、頑健、ですね。生田：ロバストも頑健も聞いたことがありません！応化：日常生活ではあまり出てきませんよね。統計や機...

応化：その通り！

アンサンブル学習のメリット・デメリット

応化：上の図でアンサンブル学習のメリットを説明しましたが、他にもありますので、まとめておきますね。

生田：お願いします。

応化：アンサンブル学習のメリットは下の３つです。

外れ値やノイズに対してロバストな推定ができる
推定値のバイアスが減る
推定値の不確かさ (モデルの適用範囲・適用領域) を考慮できる。

生田：1. は、上の図で説明したやつですか？

応化：その通りです。一つのモデルだと、外れ値やノイズの影響を受けたモデルなので、新しいサンプルの推定のとき、推定を失敗することもあります。アンサンブル学習により、リサンプリングしてたくさんモデルを作ることで、外れ値の影響を受けたサブモデルだけでなく、(あまり)受けていないサブモデルもできるわけで、最後に多数決や平均値・中央値を求めることで、外れ値の影響を減らせます。ノイズについても、推定値が平均化されることでばらつきが軽減できます。外れ値やノイズに対してロバストな推定ができるわけです。ロバストについてはこちらをご覧ください。