分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルを構築するとき、いろいろなモデル構築手法を検討するのはもちろんのこと、
手法ごとにハイパーパラメータの検討も行います。基本的には、すべてのハイパーパラメータに対して、ハイパーパラメータごとにまんべんなく値を振り、それらの各組み合わせでクロスバリデーションを行います。そして、クロスバリデーションの結果が最も良好なハイパーパラメータの組み合わせを選択します。
ただ場合によっては、過学習 (オーバーフィッティング) への不安から、またはモデルの予測精度だけでなくモデルの解釈のしやすさからから、例えば決定木における木の深さを小さい値までに制限するように、ある程度ハイパーパラメータの候補を絞りたい、といったこともあると思います。また、データセットの特徴的に、もしくは理論的にハイパーパラメータを決められる、もしくはある程度の範囲で決められる、といったときもあります。
網羅的にハイパーパラメータを振った方がいいのか、ある程度ハイパーパラメータを絞った方がいいのか、理論的に決めた方がいいのか、迷うこともあると思います。そのときは、ハイパーパラメータの決め方も一つの手法として考えるとよいでしょう。
OLS, PLS, LASSO, SVR, GPR, 決定木、ランダムフォレスト、、、の手法を検討するように、例えば SVR(ハイパーパラメータの決め方1)、SVR(ハイパーパラメータの決め方2)、SVR(ハイパーパラメータの決め方3)、、、、も並行して検討します。具体的にはトレーニングデータとテストデータに分けて、トレーニングデータでハイパーパラメータも決めつつモデル構築して、テストデータを予測して評価したり、ダブルクロスバリデーションの予測性能を評価したりします。この評価の結果として、どのハイパーパラメータの決め方が良好な予測性能になったかを検討します。こうすることで、データセットごとにハイパーパラメータの決め方も適切に検討できます。ハイパーパラメータの決め方が本当に正しいのか不安になったときに、ご参考になれば幸いです。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。