分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
こちらに記載したように、

複数の分子を入力してそれらに関係する y を出力するモデルを構築する際には、分子間の類似度を特徴量に追加します。もちろん、分子そのものの特徴量も y に関係していることがありますので、それも検討します。
x に複数の分子が存在する場合には、分子の順番についても考える必要があります。例えば、溶質と溶媒や、アニオンとカチオンのように、複数の分子の中で各分子の役割が決まっている場合には、その順番に並べれば良いですが、例えば混合溶媒の場合など、2つもしくは3つの分子の順番を一意に決められない場合もあります。
1つの方法としては、「分子量の大きい順」のような、ルールを決めて分子を並べます。この方法でとりあえず順番は明確になりますが、例えば線形回帰モデルの場合には、最初の分子に対応する x の回帰係数は同じになりますので、2つの分子の中で分子量の大きい分子の y への重みが同じであることが前提になります。また、複数分子の分子量によっては、ある分子がサンプルによって最初の分子になったり2番目の分子になったりします。
もう1つの方法としては、分子ごとに重みをつけて1つの特徴量として表現する方法です。

この方法でしたら、分子の順番も関係なく、またサンプルごとの分子の個数が変わっても対応可能です。もちろん、複数の分子を重みを付けて一つにまとめることで x として問題ないか、については議論する必要があります。
複数分子を扱う際には、以上のことに注意しつつ検討するようにしましょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。