目的変数ごとにサンプル・特徴量を変えてもOK!(ベイズ最適化や能動学習等も同じ)

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

対象とする材料や実験系によっては、y が複数あるときもあります。そして、例えばすべての y が目標を満たす、もしくは目標範囲内に入るような材料を作製します。このとき、基本的に y ごとに、x との間でモデルを構築します。y が10個あったら、モデルも、最終的に10個構築されます。

当然ながら、y ごとに x との間の関係が異なることが多いです。逆にいえば、どの y も x と同じような関係性であれば、複数の y を考慮する必要はなく、どれか一つの y のみ考慮するだけで、他の y も同時に考慮されるため十分なわけです。それでは適切に分子・材料・プロセスの設計ができないため、複数の y があるといえます。

y ごとに、x との関係が異なるわけですから、モデルも y ごとに独立して検討した方が、より予測精度の高いモデルを構築できます。例えば y ごとに、あるサンプルの値が測定されていたり、測定されていなかったりしますが、すべての y でサンプルが揃っているデータセットを用いて y ごとにモデルを構築すると、y によっては値のあるサンプルが多いにもかかわらず、少ないサンプルでモデルを構築しなければなりません。すべてのサンプルを活用できず、もったいないです。このようなときには、y ごとに、値のあるサンプルすべてを用いてモデルを構築するようにしましょう。

サンプルと同様にして、x もすべての y で揃える必要はまったくありません。x と y の間の関係は異なるということですから、y ごとに、モデルを構築するときの適切な x は異なります。例えば、特徴量選択 (変数選択) をするときは、y ごとに選択するとよいでしょう。もちろん、オーバーフィッティングを防ぐためや、いくつかの y で共通して関係している x を見つけるために、複数の y を考慮して特徴量選択をすることもありますが、モデルの予測精度の観点からは、基本的に y ごとに特徴量を選択する方がよいです。

y ごとにモデルの x が異なっていても、その後のモデルを用いた予測やモデルの逆解析はまったく問題ありません。まず、特徴量選択前の x すべてで仮想サンプルを大量に生成します。次に、y のモデルごとに、選択された x の値のみモデルに入力して、y を予測します。こうすることで、モデルごとに x が異なっても、仮想サンプルそれぞれから、すべての y を予測できます。

ちなみに、x の間に相関関係があり、特徴量選択で選択された x と選択されなかった x との間の関係を無視できないときは、すべての x を用いてモデルの適用範囲を設定したり、

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

既存のデータ分布に従うように仮想サンプルを生成したり、

[Pythonコードあり] 既存のサンプルの分布に従うように、モデルの逆解析用のサンプルをたくさん生成する方法
回帰モデルやクラス分類モデルを構築した後は、モデルの逆解析をします。 説明変数 (特徴量・記述子など) X のサンプルをたくさん生成して、それらをモデルに入力することで、目的変数 (活性・物性など) Y の値を推定します。推定された値が、よ...

 

した方がよいでしょう。

なお、上のような y ごとにサンプルを変えたり x を変えたりすることは、一般的なモデルの逆解析だけでなくベイズ最適化や能動学習でも同様です。

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。 講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月...

 

分子・材料・プロセスを設計するときは、ぜひ検討してみてください。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました