データセットを準備して、説明変数 x と目的変数 y との間で回帰モデルやクラス分類モデル y = f(x) を構築して、そのモデルを活用する、といったことはあります。このときモデルの予測精度は非常に重要です。予測精度を向上させるために、x の適切な特徴量を準備したり設計したりすることはとても大切です。ただ、モデルの予測精度を上げること自体が目的ではなく、構築したモデルを使用する目的が別にありますので、その目的に応じて x を考える必要があります。どんな x でもモデルの予測精度が上がればよい、というわけではありません。
例えば材料設計において、モデルを用いて特性 y が所望の値となる合成条件や製造条件 x を設計したい場合には、x に合成した材料のキャラクタリゼーションの分析結果などを入れることで y を推定する精度は向上すると考えられますが、それでは合成条件や製造条件の設計ができないため、実験結果のパラメータを x に入れることはできません。一方で、モデルを使う目的が、ある材料を合成してからその材料を評価した結果を予測することであれば、材料を作った後のキャラクタリゼーションの結果も x として使用することができます。このようにモデルを使用する目的によって、用いることのできる特徴量が異なります。
材料設計するときに、合成条件や製造条件を設計することに限った場合でも、材料設計の目的に応じて x を考える必要があります。例えばポリマー材料の設計において、既存のモノマーの組み合わせを最適化すればよいのか、新たなモノマーを設計したいのかによっても x として使用できる特徴量は異なります。既存のモノマーの組み合わせの最適化であれば、モノマーごとの組成比を特徴量にすることで対応可能ですが、新たなモノマーを設計したいのであれば、モノマーの分子記述子を使用する必要があります。複数の物質が混合されてできた物質の特徴量についてはこちらをご覧ください。
また、モデルにおける x と y の間の関係性を解釈したいとき、すなわち y に対して x がどのように影響しているかを検討したいときには、そもそも x には基本的に解釈可能な特徴量しか入れることができません。ただ一方で、物性間の関係を解釈したいときなどは、材料設計のときであれば x には入れずに y であるべき特徴量を、x として使用する方が適切です。モデルの目的によって使用する特徴量が異なります。
x と y の間の関係性でなくても、例えば化学構造における様々な置換基の y に影響を調べたいときは、x は分子記述子であれば何でもよく、置換基を変化させたいろいろな化学構造から x を計算して、それらをモデル入力することで予測される y の値を確認することで、置換基の y に対する影響を検討できます。このようにモデルを解釈する目的によっても使用できる x が異なります。
またこちらの記事のように、
すべての特徴量間の関係を考慮したいときには、回帰分析やクラス分類ではなく GMM を使用する方がよかったりします。
以上のように、解析の目的やモデルを使用する目的によって、適切な特徴量や手法が異なります。はじめに目的を整理してから、特徴量の準備・設計や手法の選択・改善に向かうとよいと思います。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。