モデルの予測精度向上でサンプルや特徴量を検討する際、モデルの使用目的も考えよう！

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルの検討をする時、まずそのモデルを設計、評価、解釈のどれに用いるか決めた方が良いのはこちらに書いた通りです。

まずは機械学習モデルを設計、評価、解釈のどれに用いるか決めましょう！

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

もちろん、モデルの予測性能は高い方が良いです。モデルの予測性能を向上させることを目指して、サンプルを増やしたり、x を検討したり（特徴量エンジニアリング）します。

モデルを設計に用いる時、基本的にサンプルは多ければ多いほど良いです。もちろん、測定装置が違ったり、原料が違ったり、実験条件が違ったりして、その違いをうまく x に含められない場合などは、関連するサンプルのみ用いたり、もしくは転移学習で対応したりすることはあります。ただ、モデルの適用範囲の観点からも、サンプルの多様性が高いほど、新しいサンプルに対して広い範囲の x で、トレーニングデータにおける予測精度と同程度の精度で予測できるため、使えるサンプルはなるべく使用します。

一方で、x については設計できるものだけで対応する必要があります。実験結果や実験・製造・プロセスで成り行きで変わるパラメータを x に使用してしまうと、設計のためにモデルの逆解析をした時に実験結果を指定することになり、その結果をどう再現するのかが問題になってしまいます。もちろん、実験結果や成り行きで変わるパラメータを入れた場合と入れない場合とでモデルの予測性能を比較して、入れた場合に予測性能が向上する時には、特徴量の再検討することは重要です。ただ最終的には、実験条件・製造条件に相当する設計できるものだけでモデルを構築する必要があります。

モデルを解釈したい、対象とする材料・実験系における知識抽出のための解析にモデルを用いたい時には、その目的に特化した x だけ使用することが望ましいです。機械学習の観点では、モデルを解釈したり解析したりすることは、

Boruta, GAWLS, GAVDS などで y と関係する x だけ選択する
CVPFI などで x の重要度を求める
LOMP など、y に対する x の局所的な寄与を求める
モデルの直接的逆解析で y が大きい値、中くらいの値、小さい値の時の x を求める
x を変化させてモデルに入力して、y の予測値の変化を求める

といったことくらいです。これらから得られる情報を、材料・実験系における知識・知見に変換する必要があります。そのため、機械学習の観点からの解釈の結果が出てきた時に、それを知識・知見に変換しやすいような x にする必要があります。もちろん、分子構造やプロファイルや画像などを直接特徴量化するプロセスを挟むことで、分子構造・プロファイル・画像として直接解釈することは可能です。ただ、その結果得られる出力で満足するかは、材料・実験系によります。

モデルの解釈や解析をするために、意図的にサンプルを選択することもあります。モデルを設計に用いるように何でもかんでもモデル構築のためのデータセットにサンプルを入れるのではなく、解釈や解析がしやすいように、ある程度共通項を持つようなサンプルだけでモデルを構築し、その共通項を考慮してモデルを解釈したり解析したりします。

予測精度が高くないと設計しても解釈解析してもその結果を信頼できませんので、予測性能を高くする検討はとても大事です。一方で、設計や解釈・解析の結果として得られることが、本当に意味があることなのかを考えて、サンプルや x を検討することも重要です。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。