分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
このモデルに望まれることは、x から y を精度よく予測することです。不要な情報が x にあると、それがモデル構築時にノイズとして作用するため、重要な x のみでモデルを構築することが重要になります。そのため、特徴量選択・変数選択を実施することがあります。
x と y の関係ということで、y と x それぞれとの間の単相間として相関係数の絶対値を計算し、それが小さい x を削除する、といったことを考える人もいらっしゃいますが、私はオススメしません。y との相関が小さい x でも、重要な x もあれば重要でない x もあります。逆に、y との相関が大きい x でも、重要な x もあれば重要でない x もあります。そのような中で、モデル構築において多変量解析を行い、多くの x と y との間で良好なモデル (相関関係) を構築しようとしています。
x を選択したいときは、y と x の間の相関係数ではなく、x 間の相関係数で選択するほうがよいです。
互いに類似した x は、y に対する効果も類似していると考えられ、それらの一方を削除するのは妥当です。
もしくは、例えば Boruta など多変量解析に基づいて x を選択するようにしましょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。