モデルの過学習(オーバーフィッティング)とうまく付き合うために状況を整理しましょう

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

予測精度の高いモデル構築を妨げる要因の一つに、モデルの過学習 (オーバーフィッティング) があります。新しいサンプルに対する予測性能を向上させるためには、このオーバーフィッティングとうまく付き合う必要があります。例えば、ノイズを含むデータセットにおいて、そのノイズにも過度に適合してしまった場合には、アンサンブル学習によりノイズの影響を軽減できます。ランダムフォレストや各種のブースティングの考え方です。

ランダムフォレスト(Random Forests, RF)～アンサンブル学習で決定木の推定性能を向上！～

ランダムフォレスト(Random Forest, RF)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、RFで何ができるか、RFをどのように計算するかが説明されています。pdfもスライドも自由にご利用く...

Adaboost (Adaptive Boosting) によるアンサンブル学習のやり方を解説します

今回は、アンサンブル学習の方法の一つである Adaboost (Adaptive Boostling) です。アンサンブル学習についてはこちらをご覧ください。Adaboost は単純なアンサンブル学習より精度が上がると言われています。そんな...

[デモのプログラムあり] 勾配ブースティングGradient Boosting、特に Gradient Boosting Decision Tree (GBDT), XGBoost, LightGBM

勾配ブースティングGradient Boosting、特に Gradient Boosting Decision Tree (GBDT), XGBoost, LightGBM について、パワーポイントの資料とその pdf ファイルを作成しま...

一方で、例えばソフトセンサーにおいて複数の銘柄 (品番など) を扱うプロセスで、ある銘柄に過度に適合するようなモデルが構築されることがあります。この場合に割り切って、それぞれの銘柄に “オーバーフィットした” モデルを (複数) 構築しておき、それらの複数のモデルを使い分けながら、y を予測することも重要です。もちろん、銘柄の切り替え時を予測するために、別途工夫する必要があります。

ソフトセンサーに限らず、実験系のデータ、材料のデータでも、事前に似たようなサンプル郡を分類しておくことができれば、それぞれのサンプル群ごとに特化したモデルを構築しておき、予測する時にはそれらのモデルを使い分けながら予測することができます。

事前に分類できない時には、クラスタリングと回帰分析を組み合わせることで、クラスターごとの予測精度に特化したモデル構築も検討できます。