目的変数yも特徴量エンジニアリング!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルを構築するとき、予測精度の高いモデルを構築するため、x を適切に設計することが重要です。特徴量エンジニアリングと呼ばれたりします。

https://datachemeng.com/datachemical_lab_chandes_da_ml/

https://datachemeng.com/post-4365/

 

y を説明するための多くの情報量をもつ特徴量を x に追加したり、より y と関連するように元の x を変換したりすることで、x y の関係を的確に表現できるようになります。また、元々非線形である x y の関係を、x を非線形変換することで線形化できれば、線形の回帰モデルでロバストな (頑健な) なモデルを構築できるだけでなく、外挿の探索もしやすくなります。

基本的に特徴量エンジニアリングは、説明変数の特徴量 x でしか語られません。しかし、y についても適切に 特徴量エンジニアリングすることで、x との間でモデルを構築しやすくなることがあります。もちろん、目的変数ということは分子・材料・プロセスの設計の目的に関係する変数であることを意味しますので、モデルの予測精度が上がればどんな変数でもよいわけではありません。y があり、それに目標値があり、分子や材料やプロセスの設計が行われますので、y が目標値を達成しうるかどうかを判断する必要があります。

y を変換したあとに、逆変換可能であれば、元の y に戻せますので、新たな y として使用可能です。最も簡単な例ですが、対数変換された y は指数変換で元に戻せますし、ロジット変換された y は逆ロジット変換で元に戻せます。

https://datachemeng.com/post-3529/

https://datachemeng.com/post-3543/

 

これらは単に数学的な変換だけですが、同様に逆変換できるような変換を、ドメイン知識を用いるなどして行います。例えば、y に関連する温度プロファイルがあり、そこから重要な物性を計算・変換し、それを y とするときに、ひと工夫して別のパラメータを導出したり、そもそも温度プロファイル全体を予測したりすることも考えられます。さらにいえば、y が元々カテゴリーとして与えられていたためクラス分類を適用していた場合において、それを連続値に変換して回帰分析を行ったり、逆に y が連続値で与えられていた場合において、カテゴリー化してクラス分類を行ったりすることで、それぞれモデルの予測精度が向上することもあります。

繰り返しになりますが、y は分子設計・材料開発・プロセス設計そもそもの目的に関連する変数・パラメータであり、勝手に変更してよいものではありません。変換したらその逆変換ができることが大前提となりますが、ドメイン知識を活用した特徴量エンジニアリングとして、x だけでなく y も行うことで的確にモデルを構築できることもありますので、ぜひ検討してみましょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました