モデルの適用範囲の広さを評価する方法

分子設計・材料設計・プロセス設計・プロセス制御において、分子記述士・合成条件や製造条件・プロセス条件・プロセス変数などの特徴量 x と材料の物性・活性・特性や製品品質などの目的変数 y との間で、数理モデル y = f(x) を構築します。構築したモデルに x の値を入力すれば、その値がどのような値であれ、y の値を計算できます。ただ、モデルには y の予測値を信頼できる x のデータ領域があり、これをモデルの適用範囲 (Applicability Domain, AD) と呼びます。AD についての詳細はこちらをご覧ください。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

追加でデータを収集したり、実験やシミュレーションを行ったりして、サンプルを追加した後に、改めてモデルを構築するとき、モデルの予測精度が向上する、例えば予測誤差の平均が小さくなるとは限りません。サンプルが多くなるほど、もちろんモデルを構築するときの情報量としては増えるのですが、それらすべてのサンプルにモデルをフィッティングさせる必要があるため、予測誤差の小さいモデル構築として難しい問題になるともいえます。

では、モデル構築用のサンプルを追加して予測誤差が大きくなってしまったとき、追加したサンプルは無意味だったのか、追加しない方がよかったのかというと、必ずしもそうではありません。もちろん、これまでのサンプルとは x と y の関係に一貫性がないサンプルや、外れ値を含むサンプルを追加してしまうと、モデルに悪影響を及ぼしてしまいますが、そうでない限りは、やはり予測誤差がある程度大きくなってしまっても、モデル構築用のサンプルを追加した方がよいです。

なぜ、予測誤差が大きくなってもサンプルを追加したほうがよいのでしょうか。それは、AD が広がるからです.

サンプルを追加して、これまでにない新たな x や y の値でモデルを構築することで、その周辺の x の値も信頼できる形で y の値を予測可能になります。モデル構築用のサンプルを追加することで、AD が広がります。

では、どのようにその AD の広がりを評価すればよいでしょうか。最も単純な方法として、大量に生成した仮想的なサンプルもしくは分子のうち、いくつが AD 内に入ったかで判定することが挙げられます。例えば、予測用の x のデータとして乱数に基づいて 10 万個生成し (分子の場合は生成したりデータベースから収集したりした後に分子記述子を計算し)、それらすべてをサンプル追加前の AD の内か外か、サンプル追加後の AD の内か外かを評価して比較し、それぞれ何個 AD 内に入ったかを求めます。その個数の増加の割合が、AD の広さの増加の割合です。新たなサンプルを追加することで、AD が何パーセント広がったかを検証できます。

モデル構築用データとしてサンプルを追加することは、予測精度の向上だけでなく AD の広さにも貢献します。これらを踏まえて構築するモデルの検討を深めるとよいでしょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました