分子設計・材料設計・プロセス設計において、分子や合成条件・製造条件やプロセス条件の特徴量 x と材料の物性や活性 y との間で機械学習により数理モデル y = f(x) を構築し、モデルを用いて次の分子や合成条件・製造条件やプロセス条件を設計することが行われています。ベイズ最適化では、モデル構築にガウス過程回帰を用いて、y の予測値だけでなくその分散も考慮して設計をします。
ベイズ最適化は外挿を探索することが得意です。
直接的逆解析法では y の値から x の値を直接的に予測できます。
このように機械学習を使って分子や合成条件・製造条件やプロセス条件を設計していると、そもそも今の分子や合成条件・製造条件やプロセス条件の探索範囲の中に、物性や活性の目標値を達成するものが存在するかどうか、検討したいといえます。ただ、機械学習だけで材料開発の限界を判断することは難しいです。基本的には機械学習の結果を用いて人が中止・続行の判断をする、という話はこちらに書いたとおりです。
今回は、その限界を人が判断するために参考になる情報についてお伝えします。
一つは、ベイズ最適化や直接的逆解析などで提案された候補が、合成条件やプロセス条件の上限や下限になっているかどうかです。例えば合成条件における温度のように、装置によって高温にできる限界があります。そのため x に上限や下限があることが多いです。もちろん、例えばベイズ最適化では外挿を探索することになりますので、x の上限や下限が提案されることもあります。ただ提案された結果として、上限や下限に固定されている合成条件やプロセス条件が多いと、より外側 (上限や下限を超えたところ) を探索したいが上限や下限があるため仕方なくその値を提案している可能性もあり、今の装置の制約条件の中では物性や活性の目標値を達成する材料を開発するのは難しいかもしれません。
もう一つは、ベイズ最適化や直接的逆解析であっても、既存の合成条件やプロセス条件と近いような値が提案されるかどうかです。基本的にベイズ最適化では、特に物性や活性の目標が遠いときには外挿が探索される方向になりますが、それでも既存のデータの近くしか探索されない場合は、外挿を探索しても目標達成する可能性が低くなってしまうことを意味するため、目標達成は難しいかもしれません。
以上の2つの情報は継続を中止する判断材料として使えますが、もちろん達成する可能性がゼロというわけではありません。最終的には人が判断することになりますので、ご注意いただければと思います。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。