CVPFI(任意の回帰分析手法・クラス分類手法における特徴量重要度)が複数の目的変数に対応しました!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

y が複数あるときには、y ごとにモデルを構築することが一般的です。x の候補をそれぞれの y のモデルに入力することで、各 y の予測値、もしくはベイズ最適化のときには獲得関数の値が得られ、モデルの逆解析ができます。一方で、y の間の関係も考慮しながらモデリングするため、複数の y に対して1つのモデルを構築することもあります。x の候補をモデルに入力すると複数の y の予測値が出力されます。

予測精度の観点からは、個別の y でモデル選択やハイパーパラメータ選択ができるため、y ごとにモデルを構築した方が、予測精度は高くなりやすいです。一方で、モデルの解釈の観点から、y ごとにモデルの解釈の結果が異なることになります。もちろん y は異なるので解釈結果が違うのは当然であり、y ごとのモデルの解釈にも意味がありますが、場合によっては複数の y をすべて考慮した上でのモデルの解釈を検討したいこともあります。

そこで DCEKit に搭載されている CVPFI (Cross-Validated Permutation Feature Importance) を、y が複数の場合でも特徴量重要度を計算できるようにしました。

DCEKit (Data Chemical Engineering toolKit) のクラスや関数の解説 (取扱説明書)
こちらのDCEKit (Data Chemical Engineering toolKit) について、クラスや関数の解説をします。少し長いですが、「Ctrl + F」で知りたいクラス・関数の名前を検索してもらえるとうれしいです。黄色のマー...
Cross-validated Permutation Feature Importance(CVPFI)~任意の回帰分析手法で、説明変数間の相関関係を考慮しながら安定的に変数重要度(特徴量重要度)を計算する手法[金子研論文]
金子研の論文が Analytical Science Advances に掲載されましたので、ご紹介します。タイトルはCross-validated permutation feature importance considering co...

 

CVPFI は任意の回帰分析手法・クラス分類手法で計算できる特徴量重要度です。y が複数あるときには、ランダムフォレストや決定木や Gaussian Mixture Regression (GMR) や Variational Bayesian Gaussian Mixture Regression (VBGMR) といった複数の y に対応した手法に限定されますが、これらのどの手法を用いても、すべての y を説明する上で重要な特徴量を検討できます。

もちろん、CVPFI の特徴は y が複数になってもそのままですので、サンプルが少ないときにも安定して重要度を計算できたり、x 間の相関関係を考慮した上で重要度の計算ができたりします。

ぜひ、複数の y を同時に予測するモデルの解釈のために、DCEKit の CVPFI を活用していただければと思います。

DCEKit (Data Chemical Engineering toolKit) のクラスや関数の解説 (取扱説明書)
こちらのDCEKit (Data Chemical Engineering toolKit) について、クラスや関数の解説をします。少し長いですが、「Ctrl + F」で知りたいクラス・関数の名前を検索してもらえるとうれしいです。黄色のマー...

 

CVPFI のデモンストレーションのコード (demo_cvpfi.py, demo_cvpfi_gmr.py, demo_class.py) がありますので、参考にしてください。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました