yの値が異なるサンプル間のxの値は異なっているか?

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

こちらに書いたように、

機械学習(回帰分析・クラス分類)をする全ての人が、最初に頭に入れるべきこと
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

回帰分析やクラス分類を行う時に、データセットを準備したり、x を検討したりする際に頭の中に入れておくべきことは、「x の値が似ているサンプル同士は、y の値も似ているかどうか」です。

x の値が似ているサンプル同士にもかかわらず y の値が異なっていると、どんな回帰分析手法やクラス分類手法を用いたとしても、x から y の適切な予測はできません。

x の値が似ているサンプル同士 → y の値が似ている、の対偶は、y の値が異なるサンプル同士 → x の値が似ていない、となります。すなわち、y の値が異なっている2つのサンプルを見た時に x の値が似ていたら、どんな回帰分析手法やクラス分類手法を用いたとしても、x から y の適切な予測はできません。これらの2つのサンプルを区別する x を新たに追加する必要があります。

回帰分析やクラス分類の解析結果が良くなかった時に、その原因を考察する際には、x の空間におけるサンプルの類似度と y の空間におけるサンプルの類似度を比較すると、次の検討がしやすくなります。

ちなみに、y の値が似ているサンプル同士で、x が似ている必要はありません(x が異なっていても全く問題ありません)。また、x が異なっているサンプル同士で、y が異なっている必要もありません(y が似ていても全く問題ありません)。ご注意ください。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました