分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
x と y の間の非線形性を考慮するために、x をそれぞれ2乗した二乗項や、x 同士を掛け合わせた交差項を x に追加することがあります。x の二乗項により、x が y に対して2次関数的に影響している関係を表現でき、x の交差項により、2つの x の相互作用が y に与える影響を表現できます。
単純に x を二乗したり、x 同士を掛け合わせたりすることを考えると、生のデータからこれらの項を計算することになります。もちろん、二乗項や交差項に留まらず、化学的、物理的な背景を考慮して x や x の組み合わせから非線形変換をすることもあります。
一方、x と y の間の非線形関係を考えたときに、x をセンタリングしてから二乗項や交差項を計算すると、新たな情報を獲得できます。x をセンタリングしてから、すなわち x の中心を 0 にしてから二乗項を計算することで、x の値が小さいほど x の二乗の値が大きくなり、x が大きい場合と小さい場合で y に対して同じ影響を与えるパラメータになります。x が何らかの量を表している場合、x が少ない、または多すぎると物性が低下することを考慮できます。
交差項についても同様に、x をセンタリングしてから掛け合わせることで、例えば値が小さい x 同士の掛け算が正の大きな値になり、2つの x が小さい時に物性に対して寄与することを考慮できます。
x をセンタリングすることで、変数の意味がなくなってしまうかもしれませんが、y に対する新たな情報を x に含めることができます。もちろん、新たな情報を x に含めただけで、必ずしもモデルの予測精度が向上するわけではありません。例えば、x に何も追加しない場合、x に二乗項や交差項を追加した場合、はx をセンタリングしてから二乗項や交差項を追加した場合で、トレーニングデータ・テストデータ分割や、ダブルクロスバリデーションによってモデルの予測性能を検証し、比較検討すると良いか検討すると良いでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。