「外挿」は、特徴量ベース?化合物ベース?化合物の組み合わせベース?

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルの使い方の一つとして、外挿の予測が非常に重視されています。この「外挿」という言葉については、人によって、もしくはシチュエーションによって意味が異なる場合があるので注意が必要です。まず、外挿の Wikipedia には次のように書かれています。

 

外挿(がいそう、英: extrapolation)や補外(ほがい)とは、ある既知の数値データを基にして、そのデータの範囲の外側で予想される数値を求めること。また、その手法を外挿法(英: extrapolation method)や補外法という。対義語は内挿や補間。

 

つまり、各 y や x の最小値を下回ったり、最大値を上回ったりする数値が外挿です。一般的な外挿の定義からすると、x の特徴量の値がモデル構築時のデータ範囲から外れていると外挿ということになります。ちなみに、内挿・外挿とモデルの適用範囲の内外との違いは、こちらに書いた通りです。

内挿・外挿は、モデルの適用範囲内・適用範囲外と違いますので注意が必要です
回帰分析やクラス分類によって構築された、目的変数 Y と説明変数 X との間のモデル Y = f(X) についてです。モデルについて議論するとき、モデルはデータの外挿は予測できない、内挿しか予測できない、とか、その予測結果は内挿なの?外挿な...

 

一方で、化合物ベースで「外挿」という場合もあります。例えば、炭化水素化合物を用いて構築されたモデルにおいて、リン、窒素、酸素、フッ素などを含む化合物は、仮に分子量がモデルを構築した炭化水素化合物の範囲内であったとしても「外挿」といった具合です。無機化合物でも、ある元素を含んでいない合金で構築されたモデルにおいて、その元素を含んだ合金は「外挿」と言われることがあります。

また、複数の化合物が存在した時に、混合物の組み合わせで「外挿」ということもあります。例えば、混合溶媒において、各溶媒の種類はモデル構築時のデータにあっても、溶媒の組み合わせがモデル構築時に存在しない場合、「外挿」という具合です。

以上のように、同じ外挿でも異なる意味で使われており、それぞれ議論の方向性が異なるケースもあるため、「外挿」の議論をする時は、お互い同じ意味で使っているかをまず確認すると良いと思います。もちろん、特徴量ベースの外挿でも、化合物ベースの「外挿」でも、化合物の組み合わせベースの「外挿」でも、「内挿」と同様に同程度の精度で予測できることが望ましいですし、そのような検討は大事です。さらに言えば、それぞれのケースに応じてモデルの適用範囲を設定し、

[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第8章の一部
2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍 「化学のための Pythonによるデータ解析・機...

 

予測する時は、今のモデルが適用範囲内を予測しているのか、適用範囲外を予測しているのかを認識しておくことが大事です。その上で、モデル適用範囲外の「外挿」の予測を検討することも重要です。

ぜひ、「外挿」の予測について検討してみると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました