分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
一般的には、x が実験前の情報、y が実験後の情報です。実験前に得られる情報を用いて、実験結果を予測できます。一方で、予測する対象 y ではない実験データも存在します。例えば、合成後のキャラクタリゼーションの結果などが該当する場合があります。
このような予測対象ではない実験後のデータの活用方法についてお話しします。
1つは、x と y 以外の変数として、中間変数・潜在変数 z のような位置づけで使用する方法です。x と z の間でモデルを構築し、さらに z と y の間でモデルを構築します。新たなサンプルの予測をする時には、x から z を予測し、予測された z から y を予測できます。これは特に、z のデータのあるサンプルが y のデータのあるサンプルよりも多い時に有効な方法です。また、x と z の間のモデルや z と y の間のモデルを解釈することで、メカニズムの解明や新たな知識・知見の獲得に貢献できます。


もう1つの方法は、実験結果の良否を判別するデータとして使用する方法です。そもそも実験として前提条件として想定通りうまくいったのか (対象の化合物が得られたのか、想定したサンプルが得られたのか、など) を判断するために使います。良好/不良をクラス分類モデルで構築しても良いですし、良好なサンプルのみを選択して、x と y の間で (主に回帰) モデルを構築することもできます。このように、良好な結果が得られたサンプルのみでモデルを構築することで、モデルの解釈や逆解析もしやすくなります。
もちろん逆解析をする際には、良好/不良のクラス分類モデルを構築して、そのモデルに入力した後に良好と判断されたサンプルのみを、その後の予測モデルに入力するといったやり方も必要になります。
予測対象ではない実験データも存在する場合には、ぜひこのような活用方法を検討してみてください。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。