予測対象ではない実験データの活用方法

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

一般的には、x が実験前の情報、y が実験後の情報です。実験前に得られる情報を用いて、実験結果を予測できます。一方で、予測する対象 y ではない実験データも存在します。例えば、合成後のキャラクタリゼーションの結果などが該当する場合があります。

このような予測対象ではない実験後のデータの活用方法についてお話しします。

1つは、x と y 以外の変数として、中間変数・潜在変数 z のような位置づけで使用する方法です。x と z の間でモデルを構築し、さらに z と y の間でモデルを構築します。新たなサンプルの予測をする時には、x から z を予測し、予測された z から y を予測できます。これは特に、z のデータのあるサンプルが y のデータのあるサンプルよりも多い時に有効な方法です。また、x と z の間のモデルや z と y の間のモデルを解釈することで、メカニズムの解明や新たな知識・知見の獲得に貢献できます。

金属有機構造体のモデル化に成功しました![金子研論文]
金子研の論文が Journal of Chemical Information and Modeling に掲載されましたので、ご紹介します。タイトルはCorrelation between the Metal and Organic Co...
機械学習によりバイオマテリアルの材料特性と骨形成率を予測するモデルを構築し、直接的逆解析により新規材料の設計をしました! [相澤研&金子研の共同研究論文]
相澤研と金子研における共同研究の成果の論文が Industrial & Engineering Chemistry Research に掲載されましたので、ご紹介します。タイトルはMachine Learning Model for Pre...

 

もう1つの方法は、実験結果の良否を判別するデータとして使用する方法です。そもそも実験として前提条件として想定通りうまくいったのか (対象の化合物が得られたのか、想定したサンプルが得られたのか、など) を判断するために使います。良好/不良をクラス分類モデルで構築しても良いですし、良好なサンプルのみを選択して、x と y の間で (主に回帰) モデルを構築することもできます。このように、良好な結果が得られたサンプルのみでモデルを構築することで、モデルの解釈や逆解析もしやすくなります。

もちろん逆解析をする際には、良好/不良のクラス分類モデルを構築して、そのモデルに入力した後に良好と判断されたサンプルのみを、その後の予測モデルに入力するといったやり方も必要になります。

予測対象ではない実験データも存在する場合には、ぜひこのような活用方法を検討してみてください。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました