実験計画法と低次元化は相性が良くありません

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

主成分分析やオートエンコーダにより、x から潜在変数 z を計算し、z と y の間でモデリングすることにより、モデルの予測精度を向上させる試みがあります。x を低次元にする潜在変数化が有効に機能するのは、x 間に関係がある場合です。x 間の関係をなるべく再現するように、すなわち x にある情報の損失が小さいように、x より小さい数の x に変換します。もし、全ての x 間にまったく関係がなければ (例えば無相関であれば)、そのデータセットを x より少ない z で表現することはできません。

実験計画法で最初の実験条件の候補を決める際は、基本的に x 間に関係がないように、すなわちデータセット全体の情報量が最大になるようにします。そのため、x 間に関係がなく低次元化が向いていないデータセットを作成することになります。したがって、実験計画法と低次元化は相性がよくありませんので、注意が必要です。もちろん、例えば成分組成のように、いくつかの x を足して 1 や 100 になるといった制約がある時には、例えば主成分分析でも x をより小さい次元に圧縮することはできますが、このような x は x 全体の中の一部にすぎません。

また、モデルの予測精度を低下させる要因として、多重共線性だけでなく、x と y の間の非線形性やノイズ、外れ値など様々な問題があります。