特徴量を抽象化して、モデルの逆解析により得られるサンプルの多様性を高める

目的変数 Y と説明変数 X の間で回帰モデルやクラス分類モデル Y = f(X) を構築して、Y がわからない X の値をモデルに入力することで、Y を予測することが行われています。予測精度の高いモデルを構築するためには

モデルの予測精度は、目的変数Yの誤差だけでなくモデルの適用範囲を含めて議論しましょう

新型コロナウイルスの影響もあり、セミナーや講演会はオンラインで行うようになってきました。対面でやるときも、オンラインでやるときも、だいたいどこでも聞かれる質問に、サンプル数をどれくらい増やせば十分ですか？いくつのサンプルを集めれば十分に予測...

適切に X を設計することが大事です。もちろん、X を設計するときはモデルの逆解析をすることも考慮する必要があります。

データ解析前における、説明変数(特徴量・記述子)の決め方・選び方の方針

目的変数 Y と説明変数 (特徴量・記述子) X との間に、クラス分類や回帰分析によってモデル Y = f(X) を構築します。モデルを構築するためにはデータセットが必要ですので、Y, X を決めてからサンプルを集めなければなりません。モデ...

特に、モデルの逆解析をすることで多様な解 (X のサンプル) がほしい場合、X を設計するときに念頭に入れておくべきこととして、X を抽象化することが挙げられます。

X が具体的なものであればあるほど、トレーニングデータと同じようなサンプルしかモデルの逆解析で得られなくなり、抽象化度を上げれば上げるほど、多様なサンプルが得られるようになります。

例えば、分子の水素結合を X の特徴量として表現しようとしたとき、水酸基の数やフッ素の数といった具体的な記述子で考慮できるかもしれません。しかし、Y を予測したい分子に、アミノ基のある分子があるとき、その分子における水素結合を考慮することはできません。このようなとき、X を抽象化して、例えば電気陰性度のような記述子を準備しておくことで、広く水素結合受容体の置換基をもつ分子の水素結合を考慮して、Y を予測することができます。

ポリマー設計、特にコポリマー (共重合体) の設計をするとき、混合するモノマーの組成比を X の特徴量とすることで、モデルの逆解析により、それらのモノマーをどのような割合で混合させれば Y が望ましい値になるかを検討できます。しかし、そのような X で構築されたモデルでは、トレーニングデータで使用されたモノマーの種類しか予測できません。トレーニングデータにあるモノマーの中で、それらをどのような割合で混合すればよいかは設計できますが、新たなモノマーを使用したときに Y の値がどうなるかをまったく予測できません。このようなとき、X を抽象化して、例えば各モノマーの化学構造の記述子を計算し、モノマーの組成比で重み付き平均を計算することで、新たなモノマーを用いるときでも Y の値を予測できるようになります。重み付き平均で記述子を計算することはこちらにも記載があります。

特徴量に関する基本的な考え方～複数の物質が混合されてできた物質～

ポリマー設計において、共重合体 (コポリマー) の特徴量を考えるとき、各モノマーを数値化した後に、それらのモノマーの組成比を重みとした重みつき平均 (加重算術平均もしくは単に加重平均) を計算することで数値化することがあります。また合金の特...

無機材料を扱うとき、例えば用いられる金属元素の組成比を X の特徴量とすることで、各金属の割合と Y の間の相関関係をモデル化でき、最適な無機材料にするためにどのような割合で金属を混合すればよいかを検討できます。しかし、このようなモデルはトレーニングデータにある金属種の範囲内でしか Y の予測ができません。トレーニングデータにない金属種が使用されている無機材料の予測ができないわけです。このようなとき、X を抽象化して、例えば各金属元素の特徴量を準備して、その組成比で重み付き平均を計算することで X とすれば、新たな金属種を用いるときでも Y の値を予測できるようになります。

一つ注意点として、X を抽象化したからといってモデルの予測精度が向上するわけではありません。予測精度は向上するかもしれませんし、逆に低下するかもしれません。特徴量の抽象化度を上げることで逆解析が可能なサンプルの候補数やその多様性は増えますが、モデルの予測精度も考慮しながら X を設計するとよいでしょう。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。