yは予測したいものではなく、yは結果、xは原因

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

データセットがあった時に、どれを y にしてどれを x にするか検討する際に、求めたいものや予測したいものを y にする人がいるかもしれません。もちろん、目指すこととしては x を入力して y を予測することかもしれませんが、やりたいことは、後でできるようになるため、一旦おいておきます。そして、まずは x を原因、y を結果になるように整理し直しましょう。こちらに書いたように、

機械学習(回帰分析・クラス分類)をする全ての人が、最初に頭に入れるべきこと
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...
yの値が異なるサンプル間のxの値は異なっているか?
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

データ解析・機械学習をする際の大前提として、「x の値が似ているサンプル同士は y の値も似ている」「y の値が異なるサンプル間の x の値は異なっている」というものがあります。x が原因で y が結果の時に、原因が同じで結果が異なることはありません。結果が異なっていれば、その原因も異なるということになり、x の値が異なるサンプル間で y の値が異なることを意味します。もちろん異なった原因の結果が同じになることはありますが、x が異なるサンプルで y が同じであることはデータ解析・機械学習において全く問題ありません。

逆に x を結果、y を原因にしてしまうと、y の値が異なるサンプル同士であっても x の値が同じになってしまうことがあるため、データ解析・機械学習の大前提を満たせず、うまくいきません。モデルを構築する際は必ず 「y は結果、x は原因」 になるようにしましょう。

予測したい、求めたいものが x にある場合、モデル y=f(x) では x から y の予測しかできないと思うかもしれませんが、このような場合に x を求めるのが、モデルの逆解析です。

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ...

 

x の大量の候補をモデルに入力して y を予測し、y の予測結果が良好な x の候補を選択します。直接的逆解析では、y を入力して x を直接予測することもできます。

このように、結果的に x でも y でも予測できますので、モデル化する際は x を原因、y を結果に設定し、求めたいものによってモデルを順解析するか逆解析するかで対応するようにしましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました