分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
分子の構造からその物性や活性を予測する際は、分子構造、もしくは分子構造の分子記述子 x を入力して、物性や活性 y を予測するモデル y=f(x) を構築します。一方で、複数の分子が複合的に関係して発現する物性や活性を予測することもあります。例えば、溶媒と溶質を入力して溶媒に対する溶質の溶解度を予測したり、アニオンとカチオンを入力してイオン液体としての物性を予測したり、2つの薬物を入力してそれらの間の薬物間相互作用を予測したり、2つの分子を入力してそれらが共結晶するか否かを予測したりする場合です。基質と触媒から対象の化合物の収率を予測することもあります。


このような場合、一般的には複数分子の分子構造、もしくは分子記述子を横に並べて x とします。もちろんこれでも問題ありませんが、複数の分子間の特徴を表現するため、分子間の類似度を x に追加することも検討しています。
例えば、フィンガープリントを計算し、それらの間の tanimoto 係数を x に追加します。類似度の指標も、tanimoto 係数だけでなく、dice 係数やコサイン類似度もありますし、フィンガープリントの種類もたくさんあります。また、分子記述子からのユークリッド距離も同様の指標として使用できます。

このように、分子間の類似性として多様な値を計算し、x とできます。
サポートベクターマシン、サポートベクター回帰、ガウス過程回帰などにおいて、カーネル関数が用いられており、カーネル関数も言ってみればサンプル間の類似度です。

一般的に、カーネル関数を用いる (=サンプル間の類似度を特徴量 x にする) ことで良好な予測精度を持つモデルが構築できているということは、複数の分子が入力される場合において、それらの間の類似度を特徴量 x にすることも妥当であると考えられます。もちろん、溶質と溶媒の間の構造類似性など、2つの分子間の類似性がどれくらい活性・物性に関係しているかも大事です。
複数の分子を入力して何らかを予測するときは、ぜひ分子間の類似度を x に追加することを検討してみましょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。