決定木やランダムフォレストを回帰分析でどのように活用するか？

今回は決定木やランダムフォレストの活用方法についてです。

決定木(Decision Tree, TD)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、決定木で何ができるか、決定木をどのように計算するかが説明されています。pdfもスライドも自由にご利用ください。...

ランダムフォレスト(Random Forests, RF)～アンサンブル学習で決定木の推定性能を向上！～

ランダムフォレスト(Random Forest, RF)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、RFで何ができるか、RFをどのように計算するかが説明されています。pdfもスライドも自由にご利用く...

というのも、決定木やランダムフォレストをクラス分類に用いるときは特に関係ないのですが、回帰分析に用いるときは、決定木やランダムフォレストによって構築されたモデルの特徴の一つに、目的変数 y の予測値に関して、トレーニングデータにおける y の最小値の最大値の間 (範囲) にしか予測値が入らないことが挙げられます。どんな説明変数 x の値をモデルに入力しても、y の最小値を下回ることはありませんし、最大値を上回ることもありません。

ランダムフォレスト(Random Forests, RF)や決定木(Decision Tree, DT)で構築したモデルを逆解析するときは気をつけよう！

回帰モデルやクラス分類モデルを構築したら、モデルの逆解析をすることがあります。逆解析では、説明変数 (記述子・特徴量・実験条件など) X の値から目的変数 (物性・活性など) y の値を推定するのではなく、逆に、y の値から X の値を推定...

この特徴から、例えば分子設計や材料設計やプロセス設計において、既存の y の値を超える分子・材料・プロセスを設計したいときには、決定木やランダムフォレストは使用できません。

ただ、決定木やランダムフォレストが回帰分析のときに、まったく役に立たないかと言うと、そうではありません。今回は、上のような特徴をモデルがもつ決定木やランダムフォレストの活用方法について、大きく3つに分けて解説します。

一つ目は、y が複数あり、個別の y だけ見れば目標値をクリアしている一方で、すべての y の目標値を同時にクリアしているわけではないときの設計に使用します。y ごとにモデルを作って予測したとき、y は既存のデータにおける y の範囲を超えなくてもよいので、決定木やランダムフォレストを使用できます。複数の y がすべて目標に入るような設計であれば、決定木やランダムフォレストにより達成することは可能です。

二つ目は、設計ではなく評価に使用します。例えば物質を合成する前や合成した後に、(目標値があるわけではない) 物性を評価したいときや、装置やプラントにおけるソフトセンサーとして使用するときなどです。