外挿領域を予測するときの心構え

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

既存の y の値を超越するような分子・材料・プロセスを達成するための x の値を予測するためには、どうしても既存のデータセットの内挿領域ではなく、外挿領域を探索する必要があります。外挿の予測について、まず、あくまでも外挿領域における x と y の関係性は不明です。分かっていたら予測する必要もありませんし、分からない中で頑張って予測しようとしているわけです。そのため、既存のサンプルのみから、外挿領域を最も良く予測できる特徴量エンジニアリング、機械学習法、ハイパーパラメータなどを決定することはできません。あくまでも、「既存のサンプルの中で想定できる外挿」をどの程度予測できるか検証しながら、特徴量や手法やハイパーパラメータを検討することになります。

以上を踏まえた上で、まずは今あるデータセットだけでなく、外挿領域を予測するための新たな特徴量を準備することが重要です。以下の混合物に限らず、外挿を予測するための特徴量を特徴量エンジニアリング、ドメイン知識を駆使して提案し、準備するようにしましょう。

外挿を予測するための混合物の特徴量の計算手順
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

その上で、例えば以下に記載したような方法で検証します。

モデルがどれくらい外挿できるか (モデルの適用範囲の外をどのくらい予測できる) の検証方法
回帰モデルでもクラス分類モデルでも、モデルを構築したら、そのモデルでどれくらいの外挿ができるか、つまりモデルの適用範囲 (Applicability Domain, AD) の外をどのくらい予測できるのか、はとても大事です。AD はモデルが...

 

ハイパーパラメータを外挿予測するために最適化することも重要ですが、そもそもどの手法が現状のデータセットにおいて外挿に向いているのかも一緒に検討する必要があります。PLS や LASSO などの線形手法だけでなく、ガウス過程回帰、勾配ブースティング、ニューラルネットワークを始めとする多様なモデル構築手法を検討するとよいです。

線形モデルだからといって非線形モデルより外挿性が高いわけではまったくありません
よくある誤解の一つに、線形モデルは予測精度が低いけど外挿性が高い、非線形モデルは予測精度が高いけど外挿性が低い、というのがあります。回帰モデルが線形だからといって非線形モデルより予測精度が低いわけではありませんし、線形モデルだからといって非...

 

特徴量を提案したとき、これまでの特徴量と比較検討することが重要であり、それと同時に、様々な機械学習手法で外挿を探索できるかどうか、比較検討するとよいでしょう。なお結果を確認するときは、回帰分析手法であれば実測値 vs 推定値プロットは解像度高く確認することも重要です。

回帰分析における目的変数の実測値 vs. 推定値プロットを、解像度を上げて見る
解像度を上げるといっても、画素の密度を上げるわけではなく、より詳細に検討するということです。回帰分析をしたら、以下のような目的変数の実測値 vs. 推定値プロットが得られたとしましょう。ちなみにこのプロットは、こちらの論文にある沸点のデータ...

 

外挿の予測はデータ解析・機械学習による数理モデルの醍醐味の一つですが、それと同時に非常に難しい課題の一つです。ぜひ積極的に検討していきましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました