モデルの解釈の結果とドメイン知識(化学的背景・物理的背景等)とが合わないときはどうするか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

構築したモデルに対して、変数重要度 (特徴量重要度)や、LIME・SHAP・LOMP などに基づいてモデルを解釈することがあります。

特徴量が多いときに特徴量重要度・変数重要度でモデルを解釈する方針

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

特徴量重要度・LIME・SHAP・LOMP などの値を計算した後に、自分の持つドメイン知識 (化学的背景、物理的背景、知識、知見、経験など) と照らし合わせたときに、それらが一致しないときもあります。このときの考え方についてお話しします。

まず、解釈でできるのは、あくまで “モデル” の解釈です。

データ解析や機械学習でできる解釈は、あくまで「モデル」の解釈

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と材料や製品の物性・活性・特性などの目的変数 y との間で、データセットを用いて数理モデル y =...

モデルが異なれば特徴量重要度などの値も異なります。例えばモデル構築手法を変えたり、サンプルを増やしたりしてモデルが変わると、重要度も結果も変わります。

そして、モデルの予測精度が非常に低いときに、いくらモデルを解釈しても意味がありません。

テストデータクロスバリデーションにおける決定係数や正解率が小さいときの変数重要度・特徴量重要度の考え方

これらを踏まえて、特徴量重要度などとドメイン知識を照らし合わせること改めて考えます。

モデルの予測精度が低いときは、予測精度を上げる必要がありますし、一見テストデータに対する精度が高くても、部分的にノイズに適合している可能性もあります。そこで、ドメイン知識を考慮してモデルの改善を試みます。例えば、ドメイン知識から不要と考えられる特徴量を削除したり、ドメイン知識に基づいて特徴量をグルーピングして一つにまとめたり、データセットの中でドメイン知識とは関係なさそうなサンプルを削除したりして、改めてモデル構築を行います。

ドメイン知識が正しければ、これによりモデルの予測精度は向上する傾向があります。ドメイン知識をモデルに考慮できれば、特徴量重要度などもドメイン知識に合うようになります。ドメイン知識を考慮したモデルを構築することで、モデルの解釈もしやすくなります。

もちろん、可能性としては、ドメイン知識の方が間違えており、特徴量重要度などの値が合っていることもありますが、まずはドメイン知識を信じて、モデルの方をドメイン知識に寄せていくような検討をするのがよいと思います。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。