分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
データ解析・機械学習を開始する前に、まずは構築しようとしているモデルの目的を考えることが重要です。モデルの目的は大きく分けて、設計、評価、解釈のいずれかになります。これらの目的によって、主に x、場合によっては y も影響を受けます。したがって、データ解析・機械学習を開始する前に、モデルの目的を明確にし、現在の x や y がその目的を達成するために適切かどうかを確認しながら、検討する必要があります。
例えば、機械学習モデルを設計や評価に使用する際、x は基本的に得られやすく、そのコストが y のコストと比較しても低いものになります。一例としてソフトセンサーでは、基本的にモデルを評価に使用することになり、x が温度や圧力などの測定が簡単な、すなわち測定コストが低いプロセス変数になります。y は測定が困難な、すなわち測定コストが高いプロセス変数です。ソフトセンサーに限らず、例えば画像を x として、画像から y を評価することもあるでしょう。
モデルを設計に使用する場合、x は設計段階で入手可能なものでなければなりません。合成実験や製造を設計する時には、x は実験条件や製造条件、プロセス条件である必要があります。仮に測定コストが低くても実験結果を x に使用することはできません。
一方、モデルを解釈に使用する時には、x と y は解釈したい関係である必要があります。例えば、x を何らかの材料のキャラクタリゼーションの実験結果とし、y をその材料の物性や活性とすることで、材料が物性や活性を発現するメカニズムを検討できます。
このように、モデルを設計に使うか、評価に使うか、解釈に使うかによって、モデル構築の方針が変わります。ぜひ、モデルを使用する目的を明確にしてから、x やy の選定や検討を始めるようにしましょう。データ解析・機械学習を効果的に実施するためには、これが不可欠です。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。