特徴量に関する基本的な考え方~複数の物質が混合されてできた物質~

ポリマー設計において、共重合体 (コポリマー) の特徴量を考えるとき、各モノマーを数値化した後に、それらのモノマーの組成比を重みとした重みつき平均 (加重算術平均もしくは単に加重平均) を計算することで数値化することがあります。また合金の特徴量を考えるとき、用いる金属元素もしくは非金属元素を数値化した後に、それらの組成比を重みとした加重平均を計算することで数値化します。他にも、複数の物質を混合して材料を作る場合など、一般的に混合物の特徴量を考えるとき、各物質の組成比を重みとした加重平均によって、対象の材料を数値化することが行われます。

これは適当に加重平均を計算しているわけではありません。根底には、混合物をどのように数値化するか、と考えることがあります。例えば非常に単純ですが、化学構造を置換基の数で数値化するとき、複数の化合物を混ぜた後の置換基の数は、それぞれの化合物の置換基の数に、混合した量 (物質量) を掛け合わせて、すべて足し合わせたものといえます。加重平均の考え方です。もちろん、それらの化合物間の関係 (水素結合など) については考慮できませんが、それぞれの化合物が独立に存在すると仮定したときに数値化していると考えることはできます。原子量・分子量・式量に関しても、置換基と同じ考え方ができると思います。

もちろん複雑な構造記述子や金属元素もしくは非金属元素の情報において、加重平均を計算してよいのか??、と考える場合もありますが、上で示した考え方を拡張して、加重平均で数値化するわけです。もちろん、物質の特徴量によっては、重みをつけて算術平均を計算するのではなく、重みでべき乗して幾何平均を計算する (加重幾何平均を計算する) 方が適切なこともあると思います。ちなみに、加重幾何平均については、対数変換をすると、各特徴量を対数変換した後に加重平均を計算したものに対応しますので、そちらの方が変換しやすいかもしれません。

ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスにおいて、混合物を数値化するときには、単純に重みつき平均を取るだけでなく、どのようにして混合物を数値化すれば物性や活性や特性との間の関係性を得られやすいか、といった視点で特徴量を考えるとよいと思います。もちろん、こちらに書いた通り、モデルの逆解析ができなければ意味がない場合には、そのような視点も入れて特徴量を決めるとよいでしょう。

データ解析前における、説明変数(特徴量・記述子)の決め方・選び方の方針
目的変数 Y と説明変数 (特徴量・記述子) X との間に、クラス分類や回帰分析によってモデル Y = f(X) を構築します。モデルを構築するためにはデータセットが必要ですので、Y, X を決めてからサンプルを集めなければなりません。モデ...

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました