分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
主成分分析やオートエンコーダにより、x から潜在変数 z を計算し、z と y の間でモデリングすることにより、モデルの予測精度を向上させる試みがあります。x を低次元にする潜在変数化が有効に機能するのは、x 間に関係がある場合です。x 間の関係をなるべく再現するように、すなわち x にある情報の損失が小さいように、x より小さい数の x に変換します。もし、全ての x 間にまったく関係がなければ (例えば無相関であれば)、そのデータセットを x より少ない z で表現することはできません。
実験計画法で最初の実験条件の候補を決める際は、基本的に x 間に関係がないように、すなわちデータセット全体の情報量が最大になるようにします。そのため、x 間に関係がなく低次元化が向いていないデータセットを作成することになります。したがって、実験計画法と低次元化は相性がよくありませんので、注意が必要です。もちろん、例えば成分組成のように、いくつかの x を足して 1 や 100 になるといった制約がある時には、例えば主成分分析でも x をより小さい次元に圧縮することはできますが、このような x は x 全体の中の一部にすぎません。
また、モデルの予測精度を低下させる要因として、多重共線性だけでなく、x と y の間の非線形性やノイズ、外れ値など様々な問題があります。
この中で多重共線性のみを取り扱ったとしても、予測精度の向上につながるとは限りません。潜在変数化に限らず、様々な手法で比較検討して予測精度の高いモデルを構築することを目指すと良いでしょう。
一方で、x と y の間の非線形性を考慮するために、x をより多くの数の z で表現することも考えられます。この場合は実験計画法と併用しても有効に機能することがあります。ただし、実験計画法で扱う系はサンプル数が非常に少ないため、例えばオートエンコーダを学習させるのは難しい可能性があります。
以上のことを考慮しながら実験計画法における潜在変数化を検討すると良いでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。