分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルに求められることとして、外挿の予測があります。外挿を予測することについてはこちらに書いた通りです。


外挿を高精度に予測するために、様々な工夫が考えられます。一つ、機械学習法を工夫することでモデル構築時の過学習を防ぎ、トレーニングデータの少し外側を予測できるようになります。しかし、モデルがデータに基づく以上、予測できるのはあくまでも「少し外側」に過ぎません。機械学習法だけの工夫で、外挿を高精度に予測するには限界があります。
第一原理に基づくモデルもしくは物理モデルであれば、データではなく化学的・物理的な背景に基づくモデルであるため、その背景にある理論が成立する領域においては、(データに基づくモデルではないため外挿ということではありませんが) 広い範囲で予測できます。データに基づくモデルにおいても、うまく第一原理や化学的・物理的な背景を x に盛り込むことで、それを用いて構築された機械学習モデルにより、外挿を予測できるようになります。機械学習モデルにより外挿を高精度に予測するためには、x の設計を工夫することが不可欠となります。
例えば、y と本質的に直線的な関係のある情報を x として設計できれば、その x と y の間で構築された線形モデルにより外挿を高精度に予測できます。もちろん、直線関係に限らず、非線形関係でも y との間の本質的な関係を持つ情報を x として設計することで、y との間の非線形関係を機械学習によりモデル化することで、外挿領域も予測できます。
モデルの予測精度の向上のためだけでなく、広い外挿領域を精度良く予測するためにおいても、いかに x を設計するかが鍵になります。もちろん、機械学習法の工夫によって過学習を防ぐことによる外挿予測の精度向上も重要ですが、それには限界があります。そのため、うまく x を工夫することで、機械学習モデルを構築することが望ましいです。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。