モデルの予測精度と解釈可能性を両立できる手法を開発しました！[金子研論文]

金子研の論文が Journal of Computer Chemistry, Japan に掲載されましたので、ご紹介します。タイトルは

Constructing Regression Models with High Prediction Accuracy and Interpretability Based on Decision Tree and Random Forests

です。これは修士卒の清水直斗さんが修士のときに取り組んだ研究の成果です。

基本的には、モデルの予測精度と解釈可能性はトレード・オフの関係にあります。

世界はトレードオフであふれている！～研究のチャンスはパレート最適解の向こう側にあり～

たとえば、ランチにラーメン屋さんにいくことを考えましょう。おいしくて、安いラーメンが食べられるところを探しますよね。いろいろと調べた結果、下の図のようになりました。一つ一つの ○ がラーメンです。おいしくて安いラーメンを探しているのに、おい...

すなわち、(オーバーフィッティングが起こらないように気をつけて) モデルを複雑にして予測精度を上げようとすると、モデルの解釈は難しくなります。モデルをシンプルにして解釈可能性を上げようとすると予測精度は下がります。

ただ、モデルをシンプルにすると解釈可能性が上がるとはいえ、線形回帰分析をしたときの回帰係数を説明変数 x の目的変数 y への寄与度とすることが危険なのは、こちらに書いた通りです。

回帰係数=寄与度とすることは危険、どうしても寄与度を求めたいときはPCRやPLSの1成分モデルで、ただ基本的には寄与度ではなく重要度で議論

タイトルで言いたいことはほとんど言っていますが、丁寧に説明します。たとえば最小二乗法による線形重回帰分析や部分的最小二乗回帰 (Partial Least Squares Regression, PLS) や Least Absolute ...

そこでランダムフォレストの変数重要度に着目しています。

ランダムフォレスト(Random Forests, RF)や決定木(Decision Tree, DT)で構築したモデルを逆解析するときは気をつけよう！

回帰モデルやクラス分類モデルを構築したら、モデルの逆解析をすることがあります。逆解析では、説明変数 (記述子・特徴量・実験条件など) X の値から目的変数 (物性・活性など) y の値を推定するのではなく、逆に、y の値から X の値を推定...

ただ、ランダムフォレストの変数重要度はデータセット全体で計算されたものであるため、データセットにおける全体的な傾向は捉えることはできますが、局所的な傾向、例えば y の値が大きいときにさらにその値を大きくするためにはどの変数が重要か、といったことは議論できません。さらに、”重要度” では、もちろん重要性は議論できますが、y の値を向上させるための、x の値の方向性はわかりません。

そこで、決定木とランダムフォレストを組み合わせた手法を提案しました。この手法では、決定木モデルを構築します。

決定木(Decision Tree, TD)～直感的に分かりやすいモデル～

決定木(Decision Tree, TD)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、決定木で何ができるか、決定木をどのように計算するかが説明されています。pdfもスライドも自由にご利用ください。...

決定木では x の分岐によって y の大小が異なるといった形式でモデルが表現されるため、各 x とその値がしきい値より大きいか小さいか、によってモデルを解釈できます。ただ決定木は、モデルが単純であるがゆえに予測精度は低いです。そこで決定木の各葉ノードのサンプルのみを用いて、ランダムフォレストモデルを構築します。これにより予測精度を向上させることができます。さらに、決定木モデルによってデータセット全体を解釈し、y の大小である程度分割された上で、ランダムフォレストの重要度を求めることができます。つまり、葉ノードごとのランダムフォレストの変数重要度により、x の局所的な特徴を捉えることができるわけです。

論文では、提案手法を沸点のデータセット、水溶解度のデータセット、超伝導体のデータセットを用いて、モデルの予測精度や解釈可能性について議論し、良好な結果であることを確認しました。

興味のある方は、ぜひ論文をご覧いただければと思います。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。