目的変数 Y と説明変数 X の間で回帰モデルやクラス分類モデル Y = f(X) を構築して、Y がわからない X の値をモデルに入力することで、Y を予測することが行われています。予測精度の高いモデルを構築するためには
適切に X を設計することが大事です。もちろん、X を設計するときはモデルの逆解析をすることも考慮する必要があります。
特に、モデルの逆解析をすることで多様な解 (X のサンプル) がほしい場合、X を設計するときに念頭に入れておくべきこととして、X を抽象化することが挙げられます。
X が具体的なものであればあるほど、トレーニングデータと同じようなサンプルしかモデルの逆解析で得られなくなり、抽象化度を上げれば上げるほど、多様なサンプルが得られるようになります。
例えば、分子の水素結合を X の特徴量として表現しようとしたとき、水酸基の数やフッ素の数といった具体的な記述子で考慮できるかもしれません。しかし、Y を予測したい分子に、アミノ基のある分子があるとき、その分子における水素結合を考慮することはできません。このようなとき、X を抽象化して、例えば電気陰性度のような記述子を準備しておくことで、広く水素結合受容体の置換基をもつ分子の水素結合を考慮して、Y を予測することができます。
ポリマー設計、特にコポリマー (共重合体) の設計をするとき、混合するモノマーの組成比を X の特徴量とすることで、モデルの逆解析により、それらのモノマーをどのような割合で混合させれば Y が望ましい値になるかを検討できます。しかし、そのような X で構築されたモデルでは、トレーニングデータで使用されたモノマーの種類しか予測できません。トレーニングデータにあるモノマーの中で、それらをどのような割合で混合すればよいかは設計できますが、新たなモノマーを使用したときに Y の値がどうなるかをまったく予測できません。このようなとき、X を抽象化して、例えば各モノマーの化学構造の記述子を計算し、モノマーの組成比で重み付き平均を計算することで、新たなモノマーを用いるときでも Y の値を予測できるようになります。重み付き平均で記述子を計算することはこちらにも記載があります。
無機材料を扱うとき、例えば用いられる金属元素の組成比を X の特徴量とすることで、各金属の割合と Y の間の相関関係をモデル化でき、最適な無機材料にするためにどのような割合で金属を混合すればよいかを検討できます。しかし、このようなモデルはトレーニングデータにある金属種の範囲内でしか Y の予測ができません。トレーニングデータにない金属種が使用されている無機材料の予測ができないわけです。このようなとき、X を抽象化して、例えば各金属元素の特徴量を準備して、その組成比で重み付き平均を計算することで X とすれば、新たな金属種を用いるときでも Y の値を予測できるようになります。
一つ注意点として、X を抽象化したからといってモデルの予測精度が向上するわけではありません。予測精度は向上するかもしれませんし、逆に低下するかもしれません。特徴量の抽象化度を上げることで逆解析が可能なサンプルの候補数やその多様性は増えますが、モデルの予測精度も考慮しながら X を設計するとよいでしょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。