分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
予測精度の高いモデルを構築するため、そして構築されたモデルを解釈したりするため、有効な x のみ用いることが望まれます。遺伝的アルゴリズム (Genetic Algorithm, GA) を活用することで、Genetic Algorithm-based Partial Least Squares (GAPLS) や Genetic Algorithm-based Support Vector Regression (GASVR) により変数選択もしくは特徴量選択することができます。
GA により、スペクトル解析における波長選択・波数選択、時系列データ解析における動特性・時間遅れ変数の選択をしたいときには、それぞれ Genetic Algorithm-based WaveLength Selection (GAWLS) や Genetic Algorithm-based process Variable and Dynamics Selection (GAVDS) が有効です。
なお、回帰係数により構築したモデルの解釈をしたいときは、Genetic Algorithm-Based Partial Least-Squares with Only the First Component を使う必要があります。
これらの GA を用いた変数選択・特徴量選択では、回帰分析手法として Partial Least Squares (PLS) やサポートベクター回帰 (Support Vector Regression, SVR) を用いた方法を記載しておりました。ただ、GA と組み合わせたり、GAWLS や GAVDS と組み合わせたりできるのは、PLS と SVR だけではありません。基本的にはどんな回帰分析手法とも組み合わせることができ、GA+回帰分析手法、GAWLS+回帰分析手法、GAVDS+回帰分析手法とすることができます。
例えば、ガウス過程回帰 (Gaussian Process Regression, GPR) を用いることで、
カーネル関数を決めてしまえば、ハイパーパラメータなしで GA, GAWLS, GAVDS を実行できます。名前としては、GAGPR, GAWLSGPR, GAVDSGPR といった感じです。GPR は非線形手法でありながらも、ハイパーパラメータなしで変数選択・特徴量選択が可能です。また、変数選択・特徴量選択した後にベイズ最適化することを考えているときも、GPR で変数選択・特徴量選択することは妥当といえます。
もちろん、どのような回帰分析手法を選択したとしても、そして GA の評価関数にクロスバリデーションによる評価結果やテストデータを用いた評価結果といった外部データに対する評価を用いたとしても、GA を組み合わせることは非常にオーバーフィッティングを起こしやすい状況になりますので、注意が必要です。
回帰分析を行う手法としてある程度種類が決まっているときに、GA, GAWLS, GAVDS で変数選択・特徴量選択を試みる場合には、その回帰分析手法と組み合わせて用いるとよいでしょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。