分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
分子・材料を対象にした場合、予測精度の高いモデルを構築するために、分子構造 (化学構造) を適切に考慮することが重要です。もちろん、分子構造を詳細に検討することは、より高次な、精緻な構造を検討することを意味しますが、モデルの予測性能のことを考えた時には、必ずしも高次な構造を考慮した方が良いわけではありませんので、注意が必要です。
ポイントとしては、実際に y を発現する際の分子構造と、コンピュータ上で x を計算する際の分子構造とがどれだけ一致しているかです。例えば、真空中を仮定して分子構造の構造最適化をした後に x を計算することがありますが、最適化された構造と実際の構造とがどれだけ一致しているかは議論する必要があります。構造最適化後の、より詳細な構造で x を計算できたとしても、その構造が実際の構造と一致していない分だけ、x にはノイズが入ることを意味します。極端な話、実際の構造と最適化された構造が全く異なっていたら、x は嘘の値となります。さらにいえば、y を予測したい新たな分子構造に対しても、もし実際に合成したらそのような分子構造になる必要があります。
そのため、構造最適化した構造と実際の構造とが一致しないと考えられる時は、より低次な構造のみで x を計算した方が、モデルの予測性能が高いこともあります。
高分子の高次構造を考えて x を計算することも考えられますが、原料が同じでも実際の構造は重合条件によって変わります。原料の分子構造に基づいて、高次構造を推定できることもありますが、それが実際の構造かどうかは議論する必要があります。材料設計の際は、予測する (新たな) 原料についても、高次構造を推定し、もし実際に重合したら得られる実際の高次構造を再現できなければいけません。それが難しい時には、より低次な情報から x を検討した方が、モデルの予測性能は高いでしょう (もちろん重合条件は x に入れます)。
広く無機材料における結晶構造などの構造についても同様です。実際の構造と x を計算する前のコンピュータ上の構造とがどれくらい一致しているか検討しましょう。ある程度の一致が確認できない場合は、より低次の情報から x を計算する方がモデルの予測精度は高くなることがあります。
もちろん、高次な構造を考慮した場合と考慮しない場合とで比較しながら、高次な構造の情報を用いるか検討する、という考え方もあります。ただ、高次な情報になればなるほど、その情報を得る計算コスト、手間などは多くかかります。そのあたりのコストも考えつつ、実際の分子構造とコンピュータ上の分子構造がどれくらい一致しているかを考慮して、分子構造・化学構造をどこまで考慮して機械学習モデルを構築するかを検討すると良いでしょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。