目的変数yも特徴量エンジニアリング!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルを構築するとき、予測精度の高いモデルを構築するため、x を適切に設計することが重要です。特徴量エンジニアリングと呼ばれたりします。

Datachemical LAB の出現によるデータ解析・機械学習の変化
分子設計・材料設計・プロセス設計・プロセス管理において、データ解析・機械学習をすることが一般的になってきました。ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスという言葉も色々な場面で使われています。企業の...
モデルの逆解析をふまえた特徴量設計
既存のデータセットを用いて、説明変数 x と目的変数 y の間で、回帰分析手法やクラス分類手法により、モデル y = f(x) を構築したり、構築したモデルを用いて、望ましい y の結果になるように x の値を設計したりします。予測精度の高...

y を説明するための多くの情報量をもつ特徴量を x に追加したり、より y と関連するように元の x を変換したりすることで、x y の関係を的確に表現できるようになります。また、元々非線形である x y の関係を、x を非線形変換することで線形化できれば、線形の回帰モデルでロバストな (頑健な) なモデルを構築できるだけでなく、外挿の探索もしやすくなります。

基本的に特徴量エンジニアリングは、説明変数の特徴量 x でしか語られません。しかし、y についても適切に 特徴量エンジニアリングすることで、x との間でモデルを構築しやすくなることがあります。もちろん、目的変数ということは分子・材料・プロセスの設計の目的に関係する変数であることを意味しますので、モデルの予測精度が上がればどんな変数でもよいわけではありません。y があり、それに目標値があり、分子や材料やプロセスの設計が行われますので、y が目標値を達成しうるかどうかを判断する必要があります。

y を変換したあとに、逆変換可能であれば、元の y に戻せますので、新たな y として使用可能です。最も簡単な例ですが、対数変換された y は指数変換で元に戻せますし、ロジット変換された y は逆ロジット変換で元に戻せます。

どのようなときに目的変数Yではなくlog(Y)にしたほうがよいのか?~対数変換するメリットとデメリット~
回帰分析では、目的変数 Y と説明変数 X との間でモデル Y = f(X) を構築します。このとき、Y ではなく、それを対数変換した log(Y) を用いることがあります。モデル log(Y) = f(X) を構築し、モデルに X を入力...
目的変数の値が0から1の間のとき、予測値も0から1の間にしたい!→ロジット変換はどうでしょう?
今回は、目的変数 Y の値が 0 から 1 の間にあり、回帰分析をするときの話です。例えば Y がモル分率などのときですね。このような Y と説明変数 X の間で回帰モデル Y=f(X) を構築して、X の値から Y の値を予測したとき、予...

これらは単に数学的な変換だけですが、同様に逆変換できるような変換を、ドメイン知識を用いるなどして行います。例えば、y に関連する温度プロファイルがあり、そこから重要な物性を計算・変換し、それを y とするときに、ひと工夫して別のパラメータを導出したり、そもそも温度プロファイル全体を予測したりすることも考えられます。さらにいえば、y が元々カテゴリーとして与えられていたためクラス分類を適用していた場合において、それを連続値に変換して回帰分析を行ったり、逆に y が連続値で与えられていた場合において、カテゴリー化してクラス分類を行ったりすることで、それぞれモデルの予測精度が向上することもあります。

繰り返しになりますが、y は分子設計・材料開発・プロセス設計そもそもの目的に関連する変数・パラメータであり、勝手に変更してよいものではありません。変換したらその逆変換ができることが大前提となりますが、ドメイン知識を活用した特徴量エンジニアリングとして、x だけでなく y も行うことで的確にモデルを構築できることもありますので、ぜひ検討してみましょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました