目的変数が複数あるときの解析の方針の決め方

説明変数 x と目的変数 y の間でモデル y = f(x) を構築して、新しいサンプルの x をモデルに入力して y を予測したり、y が望ましい値になる x を設計したり (モデルの逆解析) します。このとき、y が複数あることがあります。転化率と選択率だったり、いくつかの温度における物性だったり、複数の物性だったりです。

この場合の解析の方針としては、大きく分けて二つあります。

複数の y を変換してまとめて、一つの y にしてモデルを構築したり逆解析したりする
y ごとにモデルを構築して、すべての y が目標を満たすように逆解析する

1. は例えば、転化率と選択率をまとめて収率にする感じです。

1. 2. のどちらがよいかは、まずはモデルを使う目的から考えます。例えば、1. で一つの y にうまくまとめられたとしても、その y に目標を設定できなかったり、その y の目標だけでは設計する対象として不十分であったりするならば、y を予測しても意味がありませんので、y を個別に扱う必要があります。モデルを使って何を予測したいか、逆解析であればどんな分子・材料・プロセスを設計したいか、といったモデルを利用する目的と照らし合わせて 1. と 2. のどちらがよいかを決めることになります。ちなみに、複数の y をそのまま利用したほうが自由度は高いです。すべての y を予測してから一つの指標に落とし込むことは、一つの指標を予測した後に、すべての y に戻すことは難しいです。転化率と選択率から収率は計算できますが、収率だけわかっても転化率と選択率は求められません。

モデルを使う目的を踏まえた上で、次に考えるのは、1. 2. のどちらが x と y の関係を表現しやすいかです。新しいサンプルの予測をするときも、逆解析するときも、モデルの予測精度は非常に重要です。そのため、どうすれば x と y の関係を的確にモデル化できるかを考えます。y が個別の方が x との間でモデル化するのに適切であれば、y ごとに個別にモデルを構築することになりますし、一つの指標にまとめた方が x から y を的確に表現できるのであれば、まとめます。

x と y の関係に関しまして、事前 1. と 2. のどちらがよいのかわからないときは、それぞれの方法でモデルを構築し、予測性能を評価してから決める必要があります。