複数分子を単純に入力するモデルを構築する際は順番に注意

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

こちらに記載したように、

複数の分子を入力して何かを予測する際、分子間の類似度を特徴量にすることを考えてみよう!
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

複数の分子を入力してそれらに関係する y を出力するモデルを構築する際には、分子間の類似度を特徴量に追加します。もちろん、分子そのものの特徴量も y に関係していることがありますので、それも検討します。

x に複数の分子が存在する場合には、分子の順番についても考える必要があります。例えば、溶質と溶媒や、アニオンとカチオンのように、複数の分子の中で各分子の役割が決まっている場合には、その順番に並べれば良いですが、例えば混合溶媒の場合など、2つもしくは3つの分子の順番を一意に決められない場合もあります。

1つの方法としては、「分子量の大きい順」のような、ルールを決めて分子を並べます。この方法でとりあえず順番は明確になりますが、例えば線形回帰モデルの場合には、最初の分子に対応する x の回帰係数は同じになりますので、2つの分子の中で分子量の大きい分子の y への重みが同じであることが前提になります。また、複数分子の分子量によっては、ある分子がサンプルによって最初の分子になったり2番目の分子になったりします。

もう1つの方法としては、分子ごとに重みをつけて1つの特徴量として表現する方法です。

特徴量に関する基本的な考え方~複数の物質が混合されてできた物質~
ポリマー設計において、共重合体 (コポリマー) の特徴量を考えるとき、各モノマーを数値化した後に、それらのモノマーの組成比を重みとした重みつき平均 (加重算術平均もしくは単に加重平均) を計算することで数値化することがあります。また合金の特...

 

この方法でしたら、分子の順番も関係なく、またサンプルごとの分子の個数が変わっても対応可能です。もちろん、複数の分子を重みを付けて一つにまとめることで x として問題ないか、については議論する必要があります。

複数分子を扱う際には、以上のことに注意しつつ検討するようにしましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました