xにおけるサンプル間の距離とyにおけるサンプル間の距離の議論

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

良好なモデルを構築するためには、こちらに書いたように「xが似ているサンプルはyも似ている」ということが重要です。

機械学習(回帰分析・クラス分類)をする全ての人が、最初に頭に入れるべきこと
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...
yの値が異なるサンプル間のxの値は異なっているか?
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

ここでは “x” と “y” と表現していますが、様々な種類のデータ、すなわちマルチモーダルな情報を扱う場合には、何がXで何がYになるかは状況によって変わります。

分子・材料・プロセスのマルチモーダル学習はどんなときに有効か?
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

x が合成条件・プロセス条件で y が分析結果のデータになる場合もあれば、x が分析結果で y が物性・活性といった場合もあり、また他の状況となることも考えられます。

いずれにしても、何らかの x と y の間でモデルを構築し、その結果を議論する時には、x におけるサンプル間の距離と y におけるサンプル間の距離との関係性を議論することが大事です。すべてのサンプル間で確認しても良いですが、サンプル数が膨大な場合にはランダムに選択したサンプル間で確認すると良いでしょう。そして以下の図のように、x におけるサンプル間の距離と y におけるサンプル間の距離の散布図を作成します。

まず注意点として、散布図でxにおけるサンプル間の距離とyにおけるサンプル間の距離との間に相関がある必要は全くありません。上で紹介した記事にも書いたように、xにおけるサンプル間の距離が近い (サンプル間のxが似ている) 時に、y におけるサンプル間の距離も近い必要は全くありません。上の図で言えば、右下に分布している状況は全く問題ありません。一方で、xにおけるサンプル間の距離が近い時には、yにおけるサンプル間の距離も近い必要があるため、左上に分布している状況は望ましくありません。まとめると、理想的には下図の青の三角形の中に分布している状況が望ましいです。

もし左上に分布していたたら、そのサンプル間を確認することで「xが似ているにもかかわらずyが似ていない」状況について議論できます。それらのサンプル両方のyが問題なければ、サンプルを区別するためのxを検討する必要があります。

以上のように、xにおけるサンプル間の距離とyにおけるサンプル間の関係を議論しながら、モデルの作成や改善について検討すると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました