モデルの適用範囲(Applicability Domain, AD)の検討の仕方

データセットを用いて、目的変数 y と説明変数 x の間で回帰モデルやクラス分類モデルを構築した後に、モデルを適切に運用するため、モデルの適用範囲 (Applicability Domain, AD) を設定します。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...
[無料公開] 「Pythonで気軽に化学・化学工学」 の “まえがき”、目次の詳細、第1・2・3章
2021 年 5 月 1 日に、金子弘昌著の「Pythonで気軽に化学・化学工学」が出版されました。 丸善: Amazon: Amazon(Kindle): こちらの本は、前著の 「化学のための Pythonによるデータ解析・機械学習入門」...
[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門」 の “はじめに” と目次の詳細
こちらの書籍には改訂2版がございます。改訂2版でも無料公開の部分の内容は変わらない一方で、一章分+α を改訂2版では追記しておりますので、以下で興味を持っていただけましたら、改訂2版の購入をオススメいたします。 2019 年 10 月 23...

 

AD を設定する方法はいろいろあります。x の範囲に基づく方法や、データセットの x の中心からの距離に基づく方法や、x のデータ密度によって設定する方法や、アンサンブル学習によって決める方法などです。x の範囲や中心からの距離に基づく方法の問題を解決したのがデータ密度に基づく方法であるため、基本的にデータ密度やアンサンブル学習によって AD を決めることが多いと思います。

ただ、データ密度に基づく手法にも、k 近傍法や local outlier factor や One-Class Support Vector Machine (OCSVM) など、いろいろな手法があります。

k最近傍法(k-Nearest Neighbor, k-NN)でクラス分類・回帰分析・モデルの適用範囲(適用領域)の設定をしよう!
今回は、k最近傍法 (k-Nearest Neighbor, k-NN) についてです。k-NN だけで、 クラス分類 回帰分析 モデルの適用範囲(適用領域)の設定 の3つもできてしまうんです。 そんな有用な k-NN について、pdfとパ...
[デモのプログラムあり] Local Outlier Factor (LOF) によるデータ密度の推定・外れサンプル(外れ値)の検出・異常検出
Local Outlier Factor (LOF) について、パワーポイントの資料とその pdf ファイルを作成しました。LOF は k-nearest neighbor algorithm (k-NN) の発展版のようなもので、データ密...
One-Class Support Vector Machine (OCSVM) で外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!
今回は、One-Class Support Vector Machine (OCSVM) についてです。OCSVM は SVM を領域推定問題に応用した手法であり、外れ値・外れサンプルを検出できたり、データ密度を推定できたりします。データ密...

 

広義ではガウス過程回帰 (Gaussian Process Regression, GPR) もこの一つです。

ガウス過程回帰(Gaussian Process Regression, GPR)~予測値だけでなく予測値のばらつきも計算できる!~
ガウス過程による回帰(Gaussian Process Regression, GPR)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、GPRで何ができるか、GPRをどのように計算するかが説明されていま...

 

アンサンブル学習においても、サブモデルをどの手法で構築するかによって、いろいろなパターンがあります。データ密度やアンサンブル学習に基づく AD の検討の仕方について確認します。

基本的にデータ密度に基づく手法では AD の指標として、トレーニングデータとの近さ (もしくは遠さ) に関する指標が得られる一方で、アンサンブル学習においては y の予測値の標準偏差という予測値を検討する際に使いやすい指標が得られます。y の予測誤差が正規分布に従うと仮定できれば、予測値±標準偏差以内に 68 %、予測値±2×標準偏差以内に 95 %、予測値±3×標準偏差以内に 99.7 % の確率で実測値が得られると期待できます。

データ密度に基づく指標でも y の予測値の標準偏差を求めたい場合は、データ密度の指標から y の予測値の標準偏差に変換する必要があります。例えば GPR では、サンプルあいだのデータの近さからワインの標準偏差に変換するようなやり方をしています。

AD を検討するもう一つの観点として、サンプルごとの予測誤差のばらつきを AD の指標で表現できているか、があげられます。例えばテストデータにおける y 予測結果や、ダブルクロスバリデーションを行ったときの y の予測結果を用いて、y の実測値と間の誤差を、AD の指標で評価できているか確認する必要があります。横軸を AD の指標、縦軸を予測誤差としたときに、AD の指標の値が小さいとき、もしくは値が大きいときに予測誤差は小さく、AD の指標の値が大きくなるほど、もしくは値が小さくなるほど予測誤差のばらつきが大きくなることを確認する必要があります。さらに、定量的にはこちらで説明したような方法で、いろいろな AD の手法やその中のパラメータを検討し、それぞれ適切なものを選択するとよいと思います。

モデルの適用範囲の手法やハイパーパラメータの選び方
説明変数 x と目的変数 y の間で構築されたモデル y = f(x) を運用するとき、モデルの適用範囲 (Applicability Domain, AD) が必須になります。AD は、モデルが本来の予測性能を発揮できる x のデータ範囲...

 

以上のような AD の検討をしながら AD を設定し、評価や設計にモデルを使用するとよいと思います。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました