同じ実験条件で何回か実験した結果があるときのデータ解析・機械学習

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

実験系によっては、再現性の確認や評価のため、同じ実験条件で複数回実験をすることがあります。このとき、x は同じで y が異なるようなサンプルが存在することになります。基本的に x が同じものは一つのサンプルとする必要があるため、y に複数回実験したデータがあっても、それらの y の値の平均値を用いて1つのサンプルとすることが一般的です。ただ、このように平均値を用いて変換したデータセットでは、実験結果の y ばらつきを考慮したデータ解析・機械学習はできません。

平均値ではなく、y の値そのものを用いることを考えます。ただ、そのままデータを用いてしまうと、同じ実験条件のサンプルがトレーニングデータとテストデータの両方に含まれたり、クロスバリデーションやダブルクロスバリデーションのときに別のグループ (fold) に同じ実験条件のサンプルが含まれたりすることがあり、”新しい”サンプル (実験条件) に対するモデルの予測精度を適切に評価できません。もちろん、同じ実験条件のグループごとにトレーニングデータとテストデータに分けるなどして、これを避けることはできますが、先に問題となった、実験結果の y のばらつきを評価するモデルにはなりません。

そこで、アンサンブル学習のように、たくさんのサブデータセットを用いることを考えます。1つのサブデータセットを準備するとき、同じ実験条件の結果である y の値の中から、ランダムに一つの値を選択します。もし同じ実験条件で1回しか実験されていなかったら、その結果の y の値が必ず選択されることになります。この操作により、一つの実験条件が一つのサンプルになるため、サブデータセットにおいてサンプル数は異なる実験条件の数と同じになります。また、実験条件ごとにランダムに y の値が選択されるため、サブデータセットごとに少しずつ値の異なるデータセットになります。これらは、実験条件ごとの実験結果のばらつきを考慮したサブデータセット郡といえます。

サブデータセット郡を用いてモデルを構築します。具体的には、アンサンブル学習と同様にして、サブデータセットごとに、(y の平均値を用いたデータセットと同様に) モデルを構築します。これにより、サブデータセットの数だけモデルが存在することになります。 ある実験条件 x をそれらのモデルに入力すると、モデルの数だけ y の予測値が得られますので、ヒストグラム等でその分布を見ることで、予測値のばらつきを評価できます。例えば、それらの平均値を y の予測値、標準偏差をそのばらつきと考えます。y の予測値が目標値に近く、かつばらつきが小さいことが望ましいといえます。このように y の予測結果のばらつきも考慮した設計を行えるようになります。

ちなみに、サブデータセットごとに x はまったく同じであるため、モデルの適用範囲 (Applicability Domain, AD) は一つで十分です。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

以上のようにして、同じ実験条件で y の複数の実験結果があるときには、それらの実験結果のばらつきを考慮しながら y を予測したり、新たな x のサンプルを設計したりできます。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました