まずは、特徴量をなるべくたくさん準備する、というスタンスが良さそうです！

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

色々と、データ解析・機械学習をする、もしくは始めようとしている方々とお話ししていると、モデル構築をする際の x の数を気にする方もいます。x の数が多すぎないか、という心配です。

もちろん、y と全く関係のない、y にとっての乱数のデータは x には不要です。しかし、y を説明するための情報が x に含まれていないと、どんな高度な機械学習・人工知能の手法を用いたとしても、予測精度の高いモデルを構築することはできません。そのため、最初のスタンスとしては、x の数がいくら大きくなってもよいので、色々なところから x を収集したり、考えうる全ての x を考案して追加したりする、といったことが良いかと思います。

もちろん、準備した x の中に、実際には不要だったものが含まれる可能性もあります。その際は、Boruta で不要な変数を削除したり、