モデルの適用範囲を広げるにはどうすればよいのか?

分子設計・材料設計・プロセス設計を行うとき、分子記述子や材料の合成条件・製造条件やプロセス条件などの特徴量 x と物性・活性・特性など y との間で、データを用いて数理モデル y = f(x) を構築します。そして、そのモデルを用いて x から y を予測したり、y の目標値から x の値を設計したりします。このようにモデルを活用するときは、基本的にモデルの適用範囲 (Applicability Domain, AD) を設定します。

AD とは、モデルが本来の予測性能を発揮できる x のデータ領域のことです。詳しくはこちらをご覧ください。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...
モデルを作るのにサンプル数はいくつ必要か?に対する回答~モデルの適用範囲・モデルの適用領域~
統計だったり機械学習だったりニューラルネットワークだったり、データを使ったモデルの開発をしていますと、 いくつサンプルがあったらモデルはできますか? ってよく聞かれます。今回はこの質問に答えながら、モデルの適用範囲・モデルの適用領域について...

 

AD が広いと、より多くの x の値を予測できることになり、y が目標の値となるような信頼できる x の設計ができることになります。モデルの予測性能というのは、y の誤差だけでなく AD の広さにも関連し、AD は広いほどモデルの予測性能は高いです。

モデルを構築するときは、AD の広いモデルを構築することが望まれます。では AD を広げるにはどうすればよいでしょうか。

最も確実な方法は、モデルを構築するためのサンプルを増やし、サンプルの多様性を高くすることです。モデルはそれを構築したときのサンプルに基づいており、AD もサンプルに依存するため、サンプルが多くなるほど、サンプルの多様性が高くなるほど、AD は広くなります。

ただ、難しい実験をする場合など、簡単にサンプル数が増やせない場合もあります。

そのようなときに AD を広げる可能性のある方法の一つは、x の次元を削減することです。x から重要な特徴量だけ選択したり、低次元化手法により x を潜在変数 z に変換してからモデル y  = f(z) を構築したりします。

変数選択・特徴量選択のときの意識は、モデルの予測精度を上げることより、不要な変数・特徴量を削除することです
回帰モデルやクラス分類モデルの予測精度を上げるためモデルを解釈するため色々な目的で変数選択 (特徴量選択) をしていると思います。相関係数に基づく削除、Stepwise法、LASSO、GAPLS, GASVR、Boruta とかですね。変数...
可視化手法・低次元化手法の分類
説明変数 x の数が大きいときなど、データセットを用いてx を潜在変数 z に変換する手法を用いることがあります。z の数が二つのとき、データの可視化 (見える化) になります。手法の例としては、以下のものが挙げられます。 Principa...

 

ただ、何が何でも x を減らせばよいわけではありません。x を減らした後に、y との間で的確なモデルを構築できる必要があります。特徴量選択・変数選択するときのオーバーフィッティングには注意する必要があります。

変数選択・特徴量選択のときに注意すること
変数選択・特徴量選択の手法はいろいろあります。同じ値をもつサンプルの割合が大きい特徴量を削除したりとか、相関係数の絶対値が大きい特徴量の組の一つを削除したりとか、 モデルの予測精度を高めるように特徴量を選択したりとか、 乱数の特徴量のような...

 

モデルを構築するときの特徴量の数を減らすことができれば、減らす前に存在していた x についてはモデル構築用データのサンプルがもつ値付近である必要がなくなるため (その x に関係なく AD の中か外かが決まるため)、AD は広がる傾向があります。

もう一つの方法は半教師あり学習や転移学習を使用することです。

半教師あり学習 (半教師付き学習) の4つのメリット (回帰分析・クラス分類)
機械学習の手法、統計的・情報学的手法の中には、教師なし学習や教師あり学習があります。教師なし学習では、変数を使ってサンプル群を可視化(見える化)したり、クラスター解析(クラスタリング)したりします。教師あり学習では、物性・活性などの目的変数...
[解析結果とPythonコードあり] 転移学習 (Transfer Learning) を用いたデータ解析
転移学習 (Transfer Learning) について、パワーポイントの資料とその pdf ファイルを作成しました。どんなシチュエーションで転移学習が使えるのか、そして転移学習により本当にモデルの精度は向上するのか、数値シミュレーション...

 

例えば、クラス分類のときに半教師あり学習をすることで、ラベルなしのサンプルを追加してモデルを構築することになるため、最初に述べたサンプルを増やして AD が広がる効果があります。また先の次元削減とも関連しますが、ラベルなしのサンプルを使って次元削減する場合には、モデルを構築する特徴量が減ることで AD が広がる傾向があります。

転移学習についても、もちろんターゲットドメインのサンプルとソースドメインのサンプルという違いはありますが、基本的にサンプルが増える効果があり、AD が広がる傾向があります。

x から y を予測したり、y の値から x の値を予測したりするときだけでなく、ベイズ最適化のように基本的に x の外挿領域、すなわち AD の外側を探索するときでも、

[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。 講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月...

 

AD が広がるほど探索する領域は狭くなり、探索しやすくなります。ぜひ AD を広げる検討をしてみるとよいでしょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました