モデルの適用範囲はモデルを構築した特徴量 x で設定しよう!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルに x の値を入力して y の値を予測するときに、y の予測値の信頼性を議論するため、モデルの適用範囲 (Applicability Domain, AD) を設定します。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...
[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第8章の一部
2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。 オーム社: Amazon: こちらは、以前に出版した書籍 「化学のための Pythonによるデータ解析・...

 

x の値が AD 内であれば、y の予測値はモデルを構築したデータ (トレーニングデータ) における予測誤差の範囲内で、予測することができますが、AD 外であれば、その予測値は信用できず、予測誤差が大きい可能性があります。

AD を設定するとき、実験計画法 → 適応的実験計画法のなかで実施するときは、特に問題ありません。実験計画法においては、x ごとにサンプルがなるべくばらつくように最初のサンプルが選択されるため、元の x から、モデルを構築するときも変わらない (x の削除はない) ため、AD を設定するときもモデルを構築するときと同じ x が用いられます。

一方で、既存のサンプルを用いてモデルを構築するときや、化学構造から分子記述子を計算したり、混合物の特徴量を計算したりして

特徴量に関する基本的な考え方~複数の物質が混合されてできた物質~
ポリマー設計において、共重合体 (コポリマー) の特徴量を考えるとき、各モノマーを数値化した後に、それらのモノマーの組成比を重みとした重みつき平均 (加重算術平均もしくは単に加重平均) を計算することで数値化することがあります。また合金の特...

 

モデルを構築するときには、AD を設定するときに注意が必要です。なぜなら、以下の操作により元の x と異なる x でモデルが構築されるためです。

 

  1. 同じ値をもつサンプルの割合が大きい x の削除
  2. 相関係数の絶対値が大きい x の組の一つの削除
  3. 機械学習による x の選択

 

このとき、基本的には削減した後の x で AD の設定をするようにしましょう。AD は、基本的に x におけるサンプル間の距離に基づいて設定されます。モデルを構築した x とは別の余分な x があると、次元の呪いによって距離が新しく評価されないことがあります。

結局、「次元の呪い」は何が問題なのか?解決方法は?
データ解析や機械学習をしている方は、「次元の呪い」 という問題があることを聞いたことがあるかもしれません。「次元」という言葉があるように、分子記述子・合成条件・製造条件・プロセス条件・プロセス変数などの変数もしくは特徴量が多いときに生じる問...

 

これでは、モデルを構築したときのサンプル間の距離と、AD を設定するときのサンプル間の距離との間の整合性が取れません。そのため、1. 2. 3. で x が削減された後の、モデルを構築したときと まったく同じ x で AD を設定します。

ただし、1. で削除された x もチェックすることをオススメします。具体的には、1. で削除された x について、例えば分散が 0 の x が、新しいサンプルにおいて他の値を取ると、トレーニングデータの既存のサンプルとは まったく異なる可能性があり、問題です。1. で削除された x についてもチェックして、トレーニングデータと異なる値を取ったら AD 外、のように設定するとよいでしょう。

一方で、2. と 3. については考慮しなくてよい、と考えています。まず 2. については、相関が高い x の組であるため、一方の x が AD 内であればもう一方も AD 内、逆に一方の x が AD 外であればもう一方も AD 外と期待できます。もちろん、相関関係から外れるサンプルもありますので、サンプルが追加されたら、その都度、新しいデータセットで相関係数を計算し、x の削除を検討するとよいでしょう。

3. で削除された x は、何らかの理由でモデルの構築するときに不要となった、例えば予測精度を向上させるために不要と判断された x になりますので、その x の値の大小で AD 内外の判定をするより、機械学習で重要と判断された x のみの大小で AD 内外を判断した方が、予測された次の候補が望ましい可能性が高くなると考えられます。削除された x のせいで AD 外になってしまう、といったもったいない事態を避けられます。

最後の、上で実験計画法 → 適応的実験計画法の文脈で AD を設定するときには問題ない、と説明しましたが、適応的実験計画法で繰り返し実験する中で、3. で機械学習により x の特徴量選択・変数選択をするときには、最後の説明の通り選択後の x で AD を設定するようにしましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました