GAPLSやGASVRだけでなくGA+回帰分析手法で変数選択・特徴量選択

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

予測精度の高いモデルを構築するため、そして構築されたモデルを解釈したりするため、有効な x のみ用いることが望まれます。遺伝的アルゴリズム (Genetic Algorithm, GA) を活用することで、Genetic Algorithm-based Partial Least Squares (GAPLS) や Genetic Algorithm-based Support Vector Regression (GASVR) により変数選択もしくは特徴量選択することができます。

GAPLS, GASVR でモデルの推定性能がよくなるように説明変数の選択をしよう![Pythonコードあり]
遺伝的アルゴリズム (Genetic Algorithm, GA) を使って説明変数を選択する話です。2つの手法である Genetic Algorithm-based Partial Least Squares (GAPLS) Geneti...

 

GA により、スペクトル解析における波長選択・波数選択、時系列データ解析における動特性・時間遅れ変数の選択をしたいときには、それぞれ Genetic Algorithm-based WaveLength Selection (GAWLS) や Genetic Algorithm-based process Variable and Dynamics Selection (GAVDS) が有効です。

なお、回帰係数により構築したモデルの解釈をしたいときは、Genetic Algorithm-Based Partial Least-Squares with Only the First Component を使う必要があります。

真の意味で解釈でき、予測精度も高い線形モデルを開発しました![金子研論文]
タイトルを見て、線形モデルは回帰係数 (各特徴量の目的変数に対する重み) が与えられるのだから、線形モデルを解釈できるのは当たり前では??、と考えた方、非常に危険です。以下、必見です。金子研の論文が ACS Omega に掲載されましたので...

 

これらの GA を用いた変数選択・特徴量選択では、回帰分析手法として Partial Least Squares (PLS) やサポートベクター回帰 (Support Vector Regression, SVR) を用いた方法を記載しておりました。ただ、GA と組み合わせたり、GAWLS や GAVDS と組み合わせたりできるのは、PLS と SVR だけではありません。基本的にはどんな回帰分析手法とも組み合わせることができ、GA+回帰分析手法、GAWLS+回帰分析手法、GAVDS+回帰分析手法とすることができます。

例えば、ガウス過程回帰 (Gaussian Process Regression, GPR) を用いることで、

ガウス過程回帰(Gaussian Process Regression, GPR)~予測値だけでなく予測値のばらつきも計算できる!~
ガウス過程による回帰(Gaussian Process Regression, GPR)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、GPRで何ができるか、GPRをどのように計算するかが説明されていま...

 

カーネル関数を決めてしまえば、ハイパーパラメータなしで GA, GAWLS, GAVDS を実行できます。名前としては、GAGPR, GAWLSGPR, GAVDSGPR といった感じです。GPR は非線形手法でありながらも、ハイパーパラメータなしで変数選択・特徴量選択が可能です。また、変数選択・特徴量選択した後にベイズ最適化することを考えているときも、GPR で変数選択・特徴量選択することは妥当といえます。

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ...

 

もちろん、どのような回帰分析手法を選択したとしても、そして GA の評価関数にクロスバリデーションによる評価結果やテストデータを用いた評価結果といった外部データに対する評価を用いたとしても、GA を組み合わせることは非常にオーバーフィッティングを起こしやすい状況になりますので、注意が必要です。

回帰分析を行う手法としてある程度種類が決まっているときに、GA, GAWLS, GAVDS で変数選択・特徴量選択を試みる場合には、その回帰分析手法と組み合わせて用いるとよいでしょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました