目的変数が複数あるときの解析の方針の決め方

シェアする

説明変数 x と目的変数 y の間でモデル y = f(x) を構築して、新しいサンプルの x をモデルに入力して y を予測したり、y が望ましい値になる x を設計したり (モデルの逆解析) します。このとき、y が複数あることがあります。転化率と選択率だったり、いくつかの温度における物性だったり、複数の物性だったりです。

この場合の解析の方針としては、大きく分けて二つあります。

  1. 複数の y を変換してまとめて、一つの y にしてモデルを構築したり逆解析したりする
  2. y ごとにモデルを構築して、すべての y が目標を満たすように逆解析する

1. は例えば、転化率と選択率をまとめて収率にする感じです。

1. 2. のどちらがよいかは、まずはモデルを使う目的から考えます。例えば、1. で一つの y にうまくまとめられたとしても、その y に目標を設定できなかったり、その y の目標だけでは設計する対象として不十分であったりするならば、y を予測しても意味がありませんので、y を個別に扱う必要があります。モデルを使って何を予測したいか、逆解析であればどんな分子・材料・プロセスを設計したいか、といったモデルを利用する目的と照らし合わせて 1. と 2. のどちらがよいかを決めることになります。ちなみに、複数の y をそのまま利用したほうが自由度は高いです。すべての y を予測してから一つの指標に落とし込むことは、一つの指標を予測した後に、すべての y に戻すことは難しいです。転化率と選択率から収率は計算できますが、収率だけわかっても転化率と選択率は求められません。

モデルを使う目的を踏まえた上で、次に考えるのは、1. 2. のどちらが x と y の関係を表現しやすいかです。新しいサンプルの予測をするときも、逆解析するときも、モデルの予測精度は非常に重要です。そのため、どうすれば x と y の関係を的確にモデル化できるかを考えます。y が個別の方が x との間でモデル化するのに適切であれば、y ごとに個別にモデルを構築することになりますし、一つの指標にまとめた方が x から y を的確に表現できるのであれば、まとめます。

x と y の関係に関しまして、事前 1. と 2. のどちらがよいのかわからないときは、それぞれの方法でモデルを構築し、予測性能を評価してから決める必要があります。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)
いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価...

ちなみに、複数の y があるときの、逆解析における最終的なサンプルの決め方については、以下のようにいろいろとありますので、ご心配なく解析してください。

目的変数が複数個あるときのモデルの逆解析、結局どのサンプルを選んだらよいの??
回帰モデルやクラス分類モデルを構築したあとの、モデルの逆解析についてです。 こちらのチェックリストを確認したあとの話で...
ベイズ最適化で複数の目的変数がある場合の対応[Probability of Improvement(PI)以外]
適応的実験計画法により、高機能性材料を達成するための実験条件・製造条件を探索したり、高性能プロセスを開発するためのプロセス条件を探索したりす...
目的変数が複数あるときの、Gaussian Mixture Regression による直接的なモデルの逆解析、材料設計![金子研論文]
金子研の論文が Materials & Design に掲載されましたので、ご紹介します。タイトルは Direct i...

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする