分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルを構築する際、なるべく精度よく y の値を予測するために様々な工夫をします。しかし、基本的にデータに基づく機械学習モデルは、モデルを構築したデータと近い x のデータ領域のみで、y の値をモデル構築時に評価したモデルの予測精度で予測できます。そのため、モデルの適用範囲を設定し、予測する x のデータがモデルの適用範囲内か外かを判断します。
モデルの適用範囲内であれば、モデルを構築した際に評価した予測精度と同程度の精度で y の値を予測できると考えられます。このような機械学習モデルの運用の仕方は、化合物の毒性の評価や、ソフトセンサーや異常検出などによるプロセス状態の評価など、何らかの評価をする時に有効です。評価したデータがモデルの適用範囲内であれば、精度よく予測できると考えられますが、モデルの適用範囲外であれば、予測結果を疑ったほうがよいでしょう。モデルの適用範囲内であれば、y の予測値は本来の予測誤差の範囲内で当たると考えられますので、評価する際の機械学習のメリットは y の値を当てることにあります。
一方で、機械学習モデルを挑戦に使うこともあります。新たな分子・材料・プロセスを設計する時です。上との繋がりで言えば、挑戦における機械学習モデルには、モデルの適用範囲外を積極的に予測することが求められます。モデルの適用範囲外の予測結果は、もちろん当たる可能性は低いです。そのため、機械学習モデルに基づいた予測と実験とを繰り返すことで、目標とする分子・材料・プロセスを目指します。これはいわゆる適応的実験計画法であり、ベイズ最適化が一般的に用いられます。
ここでは y の予測値を当てにいっているわけではなく、モデルの適用範囲外を効率的に探索しています。そのため、ここで機械学習モデルを使用するメリットとしては、y の予測値を当てることではなく、効率的に実験を進めること、すなわち y の目標を達成するまでの実験回数やシミュレーション回数を低減させることにあります。
以上のように、機械学習モデルを使用する目的を、評価にするか挑戦にするかで、機械学習モデルの運用方針や機械学習のメリットが変わります。データ解析・機械学習を行っている方は、自身の目的が評価にあるのか挑戦にあるのかを確認し、適切な方針を検討すると良いでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。