一つのサンプルに対して実験結果が複数あるときのアンサンブル学習

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・合成条件・プロセス条件・プロセス変数 x と分子や材料の物性・活性 y との間で数理モデル y = f(x) を構築し、構築されたモデルを用いて x から y を予測したり、y から x を設計したりします。数理モデルを構築するとき、例えば一つ一つのサンプルに対して複数回 y の評価をするときなど、x が同じで y のデータが複数あるようなデータセットがあります (y の変数としては一つでも、サンプル一つに対して y の値が複数個あるケースです)。ある合成条件でサンプルを作成し、その評価を (サンプルをいくつかに分けて)、例えば 3回評価する場合などですね。このように、x が同じで y が異なるデータが複数あるとき、それらデータを単純に個別のサンプルとして扱ってしまうと、例えば材料は同じで y が異なる2つのサンプルが、トレーニングデータとテストデータに分かれて存在する、といった状況が起きてしまいます。ある材料で構築されたモデルを用いて、同じ材料を予測することで、新たな材料の予測性能を評価することはできませんので、誤った結論を導いてしまいます。

一つの材料に対して、y が異なるデータの平均値を計算して、一つのサンプルとして扱う方法もあります。これはこれで、全く問題ありません。一方で、例えばこちらの方法でアンサンブル学習をすることもできます。

サンプルごとに目的変数の値が複数あったり分布をもったりするときの解析方法
分子設計、材料設計、プロセス設計、プロセス管理・制御において、分子記述子・実験条件・製造条件・プロセス条件・プロセス変数などの説明変数 x と物性・活性・特性などの目的変数 y の間で、データセットを用いて数理モデル y = f(x) を構...

 

サブデータセットを作成するとき、サンプルごとに x に対して y のデータをランダムに一つ選択します。なおサンプルにおいて y のデータが (たまたま一回しか実験していなく) 1つしかないときは、毎回そのデータが選択されることになります。ただ他のサンプルにおいては、y のデータが複数ある中でランダムにデータが選択されるため、異なるサブデータセットが得られることになり、異なるサブモデルが構築されることになります。なお、y のデータが1つしかないサンプルにおいても、実験誤差を標準偏差で与えることができれば、正規分布を仮定してそこからサンプリングすることで、サブデータセットごとに異なる y の値となるようにできます。

このようにして構築されたサブデータセットでアンサンブル学習することにより、x のデータを入力することで、y の予測値が複数個、サブデータセットの数 (サブモデルの数) だけ出力されます。これらの予測値の平均で最終的な予測値を設定するだけでなく、予測値のばらつきによって、予測値の信頼性を評価できます。ただ、予測値のばらつきは、y の実験結果のばらつきとは関係しないため注意が必要です。基本的には、入力する x のデータがトレーニングデータから離れていれば離れているほど、予測値のばらつきが大きくなる傾向があります。すなわち、AD として利用するとよいでしょう。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました