すべてのサンプルを使って構築した機械学習モデルを解釈しよう！

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

さらに、構築したモデルを解釈することで、分子・材料・実験系・プロセスに対する新たな知見・知識を見つけたり、物性・活性の発現のメカニズム等の新たな発見につながったりします。以前に記載した通り、解釈するのはあくまで、今あるデータセットで構築されたモデルです。

データ解析や機械学習でできる解釈は、あくまで「モデル」の解釈

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と材料や製品の物性・活性・特性などの目的変数 y との間で、データセットを用いて数理モデル y =...

構築されたモデルに対しては、大域的もしくは局所的に解釈します。

機械学習モデルを大域的・局所的に解釈する方法

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

解釈結果をどの程度信用してよいかは、モデルに依存します。予測性能の高いモデルを構築できれば、その分解釈の結果も信用できます。逆に、予測性能の低いモデル、極端に言えば (テストデータに対する) r² が 0 のモデルは、解釈の結果を全く信用できません。

そのため解釈するモデルを適切に選択することが重要です。テストデータに対する予測結果や、ダブルクロスバリデーションの結果が良好なモデル構築手法を選択したり、クロスバリデーションの結果が良好なハイパーパラメータを選択したりする必要があります。モデル構築手法やハイパーパラメータが決まったら、(トレーニングデータ・テストデータ分割をした後のトレーニングデータだけでなく) なるべく多くのサンプルを用いてモデルを構築します。なぜなら、サンプルが多い方がより信頼性の高いモデルを構築できるためです。これは、モデルの逆解析をする際と同じ考え方です。

モデルの逆解析をするときのチェックリスト

回帰モデルやクラス分類モデルを構築したら、モデルの逆解析を行うことで、目的変数の目標値を達成すると考えられる説明変数の値を推定できます。ただ、モデルの逆解析をするときは、いくつか注意点がありますので、チェックリストとしてまとめました。モデル...

トレーニングデータ・テストデータの分割や、ダブルクロスバリデーションでモデルの予測性能を評価し、その予測性能を発揮する前提で、最終的に全てのサンプルを用いてモデルを構築します。これによって、評価された予測精度で新しいサンプルを予測できるモデルとして、最大限サンプルを活用して構築されたモデルを解釈できます。

例えば、トレーニングデータとテストデータに分割してトレーニングデータのみでモデルを構築し、テストデータを予測した流れで同じモデルを解釈するといったことがないように、全てのサンプルを用いて構築されたモデルを解釈するようにしましょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。