任意のクラス分類手法で変数重要度(特徴量重要度)を計算する機能をDCEKitに搭載しました![v.2.13.1]~Cross-Validated Permutation Feature Importance (CVPFI) for classification~

どのクラス分類手法でも変数重要度 (特徴量重要度) を計算する機能を DCEKit に搭載しました!こちらの回帰分析における Cross-Validated Permutation Feature Importance (CVPFI) のクラス分類版です。

任意の回帰分析手法で変数重要度(特徴量重要度)を計算する機能をDCEKitに搭載しました![v2.10.1]~Cross-validated Permutation Feature Importance(CVPFI)~
どの回帰分析手法でも変数重要度(特徴量重要度)を計算する機能をDCEKitに搭載しました!重要度が0を有意に超えるようであれば、その説明変数xはモデルの予測精度に貢献しているといえます。しかも、xの間に相関関係があっても、適切に重要度を計算...

 

重要度が 0 を有意に超えるようであれば、その説明変数 x はモデルの予測精度に貢献しているといえます。しかも、x の間に相関関係があっても、適切に重要度を計算できます。

変数重要度というと、ランダムフォレスト系の重要度が有名ですが、CVPFI では、任意の回帰分析手法・クラス分類手法で変数重要度を計算できます。

さらに、これまでの変数重要度は、ある変数 A と、A と相関の強い変数 B が x にあるとき、A や B が実際に重要であっても、変数重要度は低く見積もられてしまう問題がありましたが、CVPFI ではその問題を解決しています。A も B も (もし重要であれば) 変数重要度が高く計算されます。

クラス分類用の CVPFI は DCEKit で計算できます。

DCEKit (Data Chemical Engineering toolKit) を PyPI にリリース!
これまで化学データ・化学工学データのデータ解析に役立つツールや金子研で開発された手法に関するPythonコードをGithubにて公開してきました。このたびは、これらのツール・手法(の一部)に加えて、新たな機能を追加して、DCEKit(Dat...
GitHub - hkaneko1985/dcekit: DCEKit (Data Chemical Engineering toolKit)
DCEKit(DataChemicalEngineeringtoolKit).Contributetohkaneko1985/dcekitdevelopmentbycreatinganaccountonGitHub.
dcekit
DataChemicalEngineeringtoolkit

 

DCEKit における以下のサンプルプログラムで、実際にクラス分類用の CVPFI を使用しています。

  • py

 

こちらを参考にしていただき、ご自身でおもちのデータセットにも CVPFI を展開していただければと思います。

クラス分類モデルの解釈をするときなどに CVPFI を活用できます。なお CVPFI の重要度は、0 を有意に超えるようであれば、その x は少なくともモデルの予測精度に貢献しているといえますが、値がいくつ以上であれば重要というわけではありません。重要度の閾値について検討したいときは、乱数をうまく使うとよいでしょう。

特徴量の重要度はモデルの予測精度が低い場合でも信用してよいのか?
分子設計・材料設計・プロセス設計において、分子記述子や合成条件・製造条件やプロセス条件などの説明変数xと材料の物性・活性・特性などの目的変数yとの間で数理モデルy=f(x)を構築して、そのモデルを用いてxの値からyの値を予測したり、yの値が...

 

また、CVPFI はランダムフォレストの変数重要度に代わるものであり、任意の回帰分析手法に対して用いることができますので、例えば Boruta の別のクラス分類手法バージョンを CVPFI に基づいて作成することも可能です。

[解析結果付き] Boruta、ランダムフォレストの変数重要度に基づく変数選択手法
Borutaという、ランダムフォレスト(RandomForest,RF)の変数重要度に基づいた変数選択手法について、パワーポイントの資料とそのpdfファイルを作成しました。いろいろなデータセットを解析しましたが、モデルの推定性能を落とさない...

 

ご参考になれば幸いです。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

 

タイトルとURLをコピーしました