まずは、特徴量をなるべくたくさん準備する、というスタンスが良さそうです!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

色々と、データ解析・機械学習をする、もしくは始めようとしている方々とお話ししていると、モデル構築をする際の x の数を気にする方もいます。x の数が多すぎないか、という心配です。

もちろん、y と全く関係のない、y にとっての乱数のデータは x には不要です。しかし、y を説明するための情報が x に含まれていないと、どんな高度な機械学習・人工知能の手法を用いたとしても、予測精度の高いモデルを構築することはできません。そのため、最初のスタンスとしては、x の数がいくら大きくなってもよいので、色々なところから x を収集したり、考えうる全ての x を考案して追加したりする、といったことが良いかと思います。

もちろん、準備した x の中に、実際には不要だったものが含まれる可能性もあります。その際は、Boruta で不要な変数を削除したり、

Boruta の使い方
特徴量選択手法もしくは変数選択手法の一つに、Boruta があります。 こちらのこちらに書いた通り、 特徴量選択では、「予測精度」が上がるように特徴量を選ぶというより、不要な特徴量を削除するという意識で実施するとよいです。なぜなら、たとえト...

 

CVRFI (Cross-Validated Permutation Feature Importance) で変数の重要度を検討したり、

Cross-validated Permutation Feature Importance(CVPFI)~任意の回帰分析手法で、説明変数間の相関関係を考慮しながら安定的に変数重要度(特徴量重要度)を計算する手法[金子研論文]
金子研の論文が Analytical Science Advances に掲載されましたので、ご紹介します。タイトルは Cross-validated permutation feature importance considering c...

 

すると良いかと思います。

特にサンプル数が少ない時は、必要十分な x で検討することが望ましいです。しかし、x の数が多くなることを恐れて、実は必要であった x を取りこぼしてしまうことの方が問題です。特に、最初にデータ解析・機械学習をする際のスタンスとして、なるべく多くの x を準備することを心がけると良いと思います。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました