混合物の特徴量の一つとして単体の特徴量に組成を掛け算して横につなげる(weighted concatenation)

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

サンプルが複数の物質で混合されている場合における特徴量 x の考え方は以下の通りです。

特徴量に関する基本的な考え方~複数の物質が混合されてできた物質~
ポリマー設計において、共重合体 (コポリマー) の特徴量を考えるとき、各モノマーを数値化した後に、それらのモノマーの組成比を重みとした重みつき平均 (加重算術平均もしくは単に加重平均) を計算することで数値化することがあります。また合金の特...

 

例えばポリマー設計において、共重合体(コポリマー)の特徴量を考えるとき、各モノマーを数値化した後に、それらのモノマーの組成比を重みとした重み付き平均(加重算術平均、もしくは単に加重平均)を計算することで数値化することがあります。また合金の特徴量を考えるとき、用いる金属元素もしくは非金属元素を数値化した後に、それらの組成比を重みとした加重平均を計算することで数値化します。他にも、複数の物質を混合して材料を作る場合など、一般的に混合物の特徴量を考えるとき、各物質の組成比を重みとした加重平均によって対象の材料を数値化することが行われます。

これは適当に加重平均を計算しているわけではありません。特徴量を作成するときに「混合物をどのように数値化するか」を考えます。非常に単純な例ですが、化学構造を置換基の数で数値化するとき、複数の化合物を混ぜた後の置換基の数は、それぞれの化合物の置換基の数に混合した量(物質量)を掛け合わせて、すべて足し合わせたものといえます。これが加重平均の考え方です。もちろん、それらの化合物間の関係(水素結合など)については考慮できませんが、それぞれの化合物が独立に存在すると仮定したときに数値化していると考えることができます。原子量・分子量・式量に関しても、置換基と同じ考え方ができます。

もちろん、複雑な構造記述子や金属元素もしくは非金属元素の情報において、加重平均を計算してよいのかと考える場合もありますが、上で示した考え方を拡張して加重平均で数値化します。また、物質の特徴量によっては、重みをつけて算術平均を計算するのではなく、重みをべき乗して幾何平均を計算する(加重幾何平均を計算する)方が適切なこともあります。なお加重幾何平均については、対数変換をすると、各特徴量を対数変換した後に加重平均を計算したものに対応しますので、そちらの方が変換しやすいかもしれません。他にも、加重分散、調和平均、max-pooling、min-poolingといった変換方法があります。

混合物の特徴量のもう一つの考え方として「weighted concatenation(重み付き連結)」があります。これは単体の特徴量とその組成比を組み合わせて使用する点までは加重平均の考え方と同じですが、掛け算をした後に平均を計算するのではなく、ベクトルとして単純に連結します。(単体の特徴量数) × (単体の数) が、すべての特徴量数になります。使用されていない単体は組成比がゼロなので、その特徴量のブロックにはすべて 0 が入ります。Weighted concatenationにより、混合物の特徴量を柔軟に表現することができます。一方で、最初に説明した加重平均などの平均を取る考え方では、新しい単体を使用した際の y の予測が可能ですが、weighted concatenationでは新しい単体を予測に利用することができないため注意が必要です。

混合物の特徴量を検討する際は、weighted concatenation 「も」、あわせて検討すると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました