回帰分析・クラス分類の手法を絞って他を効率的に検討する

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

こちらに書いたように、

データ解析・機械学習におけるベストプラクティスとは
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

ベストな回帰分析手法やベストなクラス分類手法があるわけではありませんので、データセットに対して様々な回帰分析手法やクラス分類手法を行い、適切に評価して、今のデータセットに対してベストな回帰分析手法やクラス分類手法を選択する必要があります。

モデルの評価方法さえしっかりしていれば大きな問題はない!
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

例えば、こちらにある手法を検討してみると良いでしょう。

データ解析・機械学習に関する手法・考え方・注意点のまとめ
データ解析に関するいろいろな手法を解説した記事や、データ解析をするときの考え方の記事をまとめました。興味のある内容がございましたら、ぜひリンクへ飛んでいただけたらと思います。pdfファイルやパワーポイント(pptx)ファイルは、自由にご利用...

 

x が決まっていて、サンプルの数が少ない場合は、比較的短時間に様々な手法の評価ができますが、サンプルが多い場合や、回帰分析手法やクラス分類手法の他に x の検討やデータの前処理の検討などをしたいときには、かなり時間がかかってしまいます。

このような場合、1つは elastic net や線形カーネルを用いたサポートベクター回帰以外の手法で検討すると良いでしょう。この2つは特に時間がかかる手法であり、他にも線形手法がある (PLS, LASSO など) ことから、また、他に x の検討やデータの前処理の検討などモデルの予測精度を向上させる検討内容を踏まえた場合に、効率的に進めることを想定すると、省いても問題ありません。ちなみに、ガウシアンカーネルを用いたサポートベクター回帰は、高速に計算可能です。

[Pythonコードあり] サポートベクター回帰(Support Vector Regression, SVR)のハイパーパラメータを高速に最適化する方法
サポートベクター回帰 (Support Vector Regression, SVR) は、こちら:サポートベクター回帰(Support Vector Regression, SVR)~サンプル数10000以下ならこれを使うべし!~ にある...

 

elastic net や線形カーネルを用いたサポートベクター回帰以外の手法で検討しても時間がかかり過ぎる場合には、LightGBM と XGBoost のみで、さらにハイパーパラメータをデフォルト値で固定して考えると良いでしょう。そうすることで時間がかからないため、x の検討やデータの前処理の検討など、他の検討を効率的に進めやすくなります。

ただ、可能であれば、x の検討やデータの前処理の検討など様々な検討を進めた後に、それらの内容が決まった後に、想定していたすべての手法でモデル構築とその予測性能の評価を行うことで、漏れなく回帰分析手法・クラス分類手法の検討ができるでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました