AD を設定すれば万事OK?

回帰モデルやクラス分類モデルを構築したあとは、それを効果的に使用するため、モデルの適用範囲 (Applicability Domain, AD) を設定する必要があります。

内挿・外挿は、モデルの適用範囲内・適用範囲外と違いますので注意が必要です
回帰分析やクラス分類によって構築された、目的変数 Y と説明変数 X との間のモデル Y = f(X) についてです。モデルについて議論するとき、モデルはデータの外挿は予測できない、内挿しか予測できない、とか、その予測結果は内挿なの?外挿な...
モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

モデルは、説明変数 x の値が入力されれば、それがどんな値でも、目的変数 y の値を出力します。ただ、その出力された値を信頼できるかどうかは、x の値に依存します。それを議論するための概念が AD です。例えば、この x の値をもつサンプルは予測しても信頼できないとか、この x の値をもつサンプルはある程度信頼できるといったことを見積もれます。モデルを運用するときには、必ず AD が必要です。

ただ、AD を設定しさえすればそれで OK、というわけではありません。そもそもモデルを用いる目的は、x の値を入力して y の値を的確に予測したり、y の値が望ましい値となる x の値を適切に設計したりすることです。つまり AD が広いほどモデルの利用価値が高まります。

AD を広げる工夫も必要です。例えば外れ値が生じうる特徴量が x にあるとき、その特徴量に外れ値のあるサンプルが新たにモデルに入力されると、そのサンプルは AD 外となり、y の予測値は信頼できません。もし、その特徴量をモデル構築時に削除することができれば、同じサンプルを AD 内とできるかもしれません。これは AD が広がることを意味します。

このように、特徴量のセットを適切に選択することで、AD は広がる可能性があります。また、特徴量の複数のセットでモデルの構築と AD の設定を行い、それらの AD の和集合として、最終的な AD を計算することで、AD を広げることもできます。以下の論文のようなイメージです。

アンサンブル学習でも、各サブモデルの適用範囲・適用領域をちゃんと考えよう!~Ensemble learning method Considering Applicability Domain of each Submodel (ECADS)~
応化先生と生田さんが論文 “Discussion on Regression Methods Based on Ensemble Learning and Applicability Domains of Linear Submodels”...
新たなアンサンブル学習法を開発しました![金子研論文][Pythonプログラム付き]
昨年度の金子研の四年生が主に研究していたテーマの成果が、Journal of Computer Chemistry, Japan にて論文公開になりました。タイトルはモデルの適用範囲の考慮したアンサンブル学習法の開発です。下の URL から...

 

もちろん AD を設定することは必要であり、それ自体は大事なことですが、その後、次のステップとして AD を広げる工夫をしてみるとよいと思います。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました