分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
機械学習でモデルを構築するためのデータがまだないときは、最初の実験条件やシミュレーション条件の、いくつかの候補を決める必要があります。基本的には実験計画法に基づいて、D最適基準の値が大きくなるように、実験条件やシミュレーション条件を決めることになりますが、
一方で、もしドメイン知識があれば、それを活用することで、より適切な最初の実験条件やシミュレーション条件の候補を決められることもあります。
例えば実験条件に化合物の種類があり、特に任意の化合物の中から最適化したいときには、化合物の化学構造を数値化して分子記述子で表す必要があります。一般的な分子記述子のなかには、相関の高い記述子のペアが含まれます。D最適基準では、基本的に x の間の相関関係がないように、すなわち実験条件やシミュレーション条件がなるべくばらつくように、候補を選択するため、そもそも相関の高い記述子が含まれていると、D最適基準が上手く機能しないことがあります。このとき、ドメイン知識に基づいて、化合物の特性や意味合いから、化合物がばらつくように選択することも一つの方法です。
またこちらの文献にあるように、
x に分子記述子を含む実験条件やシミュレーション条件でクラスタリングするときに、色々なクラスタリング手法やクラスター数で実行したときのクラスタリング結果から、ドメイン知識を用いて適切なクラスター数やクラスタリング手法を決め、その結果得られるクラスターの中から1つずつ化合物を選択する方法もあります。
次からの話は化合物に限ったことではありませんが、例えば実験系によっては、実験可能な範囲や、実用化・製品化を考えたときの実験条件の規格の範囲が存在することもあります。例えば環境影響的に使用できる溶媒の種類が限られていたり、使用量に制限があったりする場合です。多くの場合で、x に上限・下限を設定すると思いますが、上限・下限では設定できない場合も含めて、ドメイン知識を用いて実験的に極端な条件をあらかじめ選択しておくと、その後の機械学習が効果的になります。
機械学習で良好なモデルを構築する必要条件として、データのばらつきが大きいことが挙げられます。一方で、実験データがない状況で考慮できるばらつきは、x のみで y がない状況で考慮できるばらつきに過ぎません。そのような状況を補いうるドメイン知識を用いることで、もちろん実験結果と直接関係ないかもしれませんが (実際に実験してから、実験結果のデータを用いて機械学習でモデルを構築し、モデルの予測性能を評価してみないと実際のところはわかりません)、よりばらつくような最初の実験条件の候補を選択すると、機械学習が上手くいくこともあります。
もちろん最初は実験計画法のみで最初の実験条件やシミュレーション条件の候補の選択を検討すると思いますが、その結果を見て、その実験系やプロセスや製造やシミュレーションの専門の方が、条件としてあまりばらついていないと感じたり、ばらつきを考えたときに不足しているデータがあると感じたりするようなときには、その方のドメイン知識を使って候補を選択し直したり、候補を追加したりするとよいでしょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。