分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルを構築する際にさまざまな検討をした結果、事前にサンプルを選択して、選択されたサンプルのみでモデルを構築することもあります。一部に実験エラーがあるサンプルを削除したり、一部の実験条件が異なるサンプルや、そもそも実験条件が不明なサンプルを削除したり、同じ装置で実験されたサンプルのみを選択したりする場合などです。このような時には、必ず大元の、何か処理する前のデータセットから、サンプルを選択するようにしましょう。なぜなら、サンプルの変化によってデータセットの前処理の結果も変わるからです。
一般的に、オリジナルのデータセットから x を検討して追加したり、ダミー変数化するなどして数値に変換したり、同じ値を持つサンプルの割合や x の相関係数の絶対値で x を削除するなどの前処理を行います。
このような前処理後のデータセットからサンプルを選択すると、どうなるでしょうか。例えば、ダミー変数化した0と1の変数において、削除したサンプルのみが1だった場合、意味のないダミー変数が残ってしまいます。また、サンプルが削除されることで、同じ値を持つサンプルの割合や相関係数の絶対値が変わることで削除すべき変数が変わることもあります。
このように、前処理後にサンプルを削除してしまうと、その後誤った解析をしてしまう危険があります。この危険を事前に防ぐためにも、サンプルを選択する際は、必ず大元のデータセットから選択するようにしましょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。