機械学習モデルを、評価 or 挑戦のどちらに使うか明確にしましょう！

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルを構築する際、なるべく精度よく y の値を予測するために様々な工夫をします。しかし、基本的にデータに基づく機械学習モデルは、モデルを構築したデータと近い x のデータ領域のみで、y の値をモデル構築時に評価したモデルの予測精度で予測できます。そのため、モデルの適用範囲を設定し、予測する x のデータがモデルの適用範囲内か外かを判断します。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回帰モデル・クラス分類モデルを使うとき必須となる概念～

今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第８章の一部

2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍「化学のための Pythonによるデータ解析・機...

モデルの適用範囲内であれば、モデルを構築した際に評価した予測精度と同程度の精度で y の値を予測できると考えられます。このような機械学習モデルの運用の仕方は、化合物の毒性の評価や、ソフトセンサーや異常検出などによるプロセス状態の評価など、何らかの評価をする時に有効です。評価したデータがモデルの適用範囲内であれば、精度よく予測できると考えられますが、モデルの適用範囲外であれば、予測結果を疑ったほうがよいでしょう。モデルの適用範囲内であれば、y の予測値は本来の予測誤差の範囲内で当たると考えられますので、評価する際の機械学習のメリットは y の値を当てることにあります。

一方で、機械学習モデルを挑戦に使うこともあります。新たな分子・材料・プロセスを設計する時です。上との繋がりで言えば、挑戦における機械学習モデルには、モデルの適用範囲外を積極的に予測することが求められます。モデルの適用範囲外の予測結果は、もちろん当たる可能性は低いです。そのため、機械学習モデルに基づいた予測と実験とを繰り返すことで、目標とする分子・材料・プロセスを目指します。これはいわゆる適応的実験計画法であり、ベイズ最適化が一般的に用いられます。

[無料公開] 「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」の “まえがき”、目次の詳細、第１・２章

2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約２年経過した 2023 年 4 月 ...

ここでは y の予測値を当てにいっているわけではなく、モデルの適用範囲外を効率的に探索しています。そのため、ここで機械学習モデルを使用するメリットとしては、y の予測値を当てることではなく、効率的に実験を進めること、すなわち y の目標を達成するまでの実験回数やシミュレーション回数を低減させることにあります。

以上のように、機械学習モデルを使用する目的を、評価にするか挑戦にするかで、機械学習モデルの運用方針や機械学習のメリットが変わります。データ解析・機械学習を行っている方は、自身の目的が評価にあるのか挑戦にあるのかを確認し、適切な方針を検討すると良いでしょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。