分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
色々と、データ解析・機械学習をする、もしくは始めようとしている方々とお話ししていると、モデル構築をする際の x の数を気にする方もいます。x の数が多すぎないか、という心配です。
もちろん、y と全く関係のない、y にとっての乱数のデータは x には不要です。しかし、y を説明するための情報が x に含まれていないと、どんな高度な機械学習・人工知能の手法を用いたとしても、予測精度の高いモデルを構築することはできません。そのため、最初のスタンスとしては、x の数がいくら大きくなってもよいので、色々なところから x を収集したり、考えうる全ての x を考案して追加したりする、といったことが良いかと思います。
もちろん、準備した x の中に、実際には不要だったものが含まれる可能性もあります。その際は、Boruta で不要な変数を削除したり、
CVRFI (Cross-Validated Permutation Feature Importance) で変数の重要度を検討したり、
すると良いかと思います。
特にサンプル数が少ない時は、必要十分な x で検討することが望ましいです。しかし、x の数が多くなることを恐れて、実は必要であった x を取りこぼしてしまうことの方が問題です。特に、最初にデータ解析・機械学習をする際のスタンスとして、なるべく多くの x を準備することを心がけると良いと思います。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。