目的変数が複数あるときの解析の方針の決め方

説明変数 x と目的変数 y の間でモデル y = f(x) を構築して、新しいサンプルの x をモデルに入力して y を予測したり、y が望ましい値になる x を設計したり (モデルの逆解析) します。このとき、y が複数あることがあります。転化率と選択率だったり、いくつかの温度における物性だったり、複数の物性だったりです。

この場合の解析の方針としては、大きく分けて二つあります。

 

  1. 複数の y を変換してまとめて、一つの y にしてモデルを構築したり逆解析したりする
  2. y ごとにモデルを構築して、すべての y が目標を満たすように逆解析する

 

1. は例えば、転化率と選択率をまとめて収率にする感じです。

1. 2. のどちらがよいかは、まずはモデルを使う目的から考えます。例えば、1. で一つの y にうまくまとめられたとしても、その y に目標を設定できなかったり、その y の目標だけでは設計する対象として不十分であったりするならば、y を予測しても意味がありませんので、y を個別に扱う必要があります。モデルを使って何を予測したいか、逆解析であればどんな分子・材料・プロセスを設計したいか、といったモデルを利用する目的と照らし合わせて 1. と 2. のどちらがよいかを決めることになります。ちなみに、複数の y をそのまま利用したほうが自由度は高いです。すべての y を予測してから一つの指標に落とし込むことは、一つの指標を予測した後に、すべての y に戻すことは難しいです。転化率と選択率から収率は計算できますが、収率だけわかっても転化率と選択率は求められません。

モデルを使う目的を踏まえた上で、次に考えるのは、1. 2. のどちらが x と y の関係を表現しやすいかです。新しいサンプルの予測をするときも、逆解析するときも、モデルの予測精度は非常に重要です。そのため、どうすれば x と y の関係を的確にモデル化できるかを考えます。y が個別の方が x との間でモデル化するのに適切であれば、y ごとに個別にモデルを構築することになりますし、一つの指標にまとめた方が x から y を的確に表現できるのであれば、まとめます。

x と y の関係に関しまして、事前 1. と 2. のどちらがよいのかわからないときは、それぞれの方法でモデルを構築し、予測性能を評価してから決める必要があります。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)
いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

 

ちなみに、複数の y があるときの、逆解析における最終的なサンプルの決め方については、以下のようにいろいろとありますので、ご心配なく解析してください。

目的変数が複数個あるときのモデルの逆解析、結局どのサンプルを選んだらよいの??
回帰モデルやクラス分類モデルを構築したあとの、モデルの逆解析についてです。 こちらのチェックリストを確認したあとの話ですね。 モデルの逆解析のとき、目的変数が一つでしたら、その推定値がよさそうなサンプルを選んだり、ベイズ最適化で獲得関数の値...
ベイズ最適化で複数の目的変数がある場合の対応[Probability of Improvement(PI)以外]
適応的実験計画法により、高機能性材料を達成するための実験条件・製造条件を探索したり、高性能プロセスを開発するためのプロセス条件を探索したりするとき、ベイズ最適化を用いることで効率的に外挿を探索しながら目標達成を目指すことができます。設計問題...
目的変数が複数あるときの、Gaussian Mixture Regression による直接的なモデルの逆解析、材料設計![金子研論文]
金子研の論文が Materials & Design に掲載されましたので、ご紹介します。タイトルは Direct inverse analysis based on Gaussian mixture regression for mult...

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました