分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルに x の値を入力して y の値を予測するときに、y の予測値の信頼性を議論するため、モデルの適用範囲 (Applicability Domain, AD) を設定します。
x の値が AD 内であれば、y の予測値はモデルを構築したデータ (トレーニングデータ) における予測誤差の範囲内で、予測することができますが、AD 外であれば、その予測値は信用できず、予測誤差が大きい可能性があります。
AD を設定するとき、実験計画法 → 適応的実験計画法のなかで実施するときは、特に問題ありません。実験計画法においては、x ごとにサンプルがなるべくばらつくように最初のサンプルが選択されるため、元の x から、モデルを構築するときも変わらない (x の削除はない) ため、AD を設定するときもモデルを構築するときと同じ x が用いられます。
一方で、既存のサンプルを用いてモデルを構築するときや、化学構造から分子記述子を計算したり、混合物の特徴量を計算したりして
モデルを構築するときには、AD を設定するときに注意が必要です。なぜなら、以下の操作により元の x と異なる x でモデルが構築されるためです。
- 同じ値をもつサンプルの割合が大きい x の削除
- 相関係数の絶対値が大きい x の組の一つの削除
- 機械学習による x の選択
このとき、基本的には削減した後の x で AD の設定をするようにしましょう。AD は、基本的に x におけるサンプル間の距離に基づいて設定されます。モデルを構築した x とは別の余分な x があると、次元の呪いによって距離が新しく評価されないことがあります。
これでは、モデルを構築したときのサンプル間の距離と、AD を設定するときのサンプル間の距離との間の整合性が取れません。そのため、1. 2. 3. で x が削減された後の、モデルを構築したときと まったく同じ x で AD を設定します。
ただし、1. で削除された x もチェックすることをオススメします。具体的には、1. で削除された x について、例えば分散が 0 の x が、新しいサンプルにおいて他の値を取ると、トレーニングデータの既存のサンプルとは まったく異なる可能性があり、問題です。1. で削除された x についてもチェックして、トレーニングデータと異なる値を取ったら AD 外、のように設定するとよいでしょう。
一方で、2. と 3. については考慮しなくてよい、と考えています。まず 2. については、相関が高い x の組であるため、一方の x が AD 内であればもう一方も AD 内、逆に一方の x が AD 外であればもう一方も AD 外と期待できます。もちろん、相関関係から外れるサンプルもありますので、サンプルが追加されたら、その都度、新しいデータセットで相関係数を計算し、x の削除を検討するとよいでしょう。
3. で削除された x は、何らかの理由でモデルの構築するときに不要となった、例えば予測精度を向上させるために不要と判断された x になりますので、その x の値の大小で AD 内外の判定をするより、機械学習で重要と判断された x のみの大小で AD 内外を判断した方が、予測された次の候補が望ましい可能性が高くなると考えられます。削除された x のせいで AD 外になってしまう、といったもったいない事態を避けられます。
最後の、上で実験計画法 → 適応的実験計画法の文脈で AD を設定するときには問題ない、と説明しましたが、適応的実験計画法で繰り返し実験する中で、3. で機械学習により x の特徴量選択・変数選択をするときには、最後の説明の通り選択後の x で AD を設定するようにしましょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。