データ解析や機械学習でできる解釈は、あくまで「モデル」の解釈

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と材料や製品の物性・活性・特性などの目的変数 y との間で、データセットを用いて数理モデル y = f(x) を構築し、モデルを用いて x の値から y の値を推定したり、y が目標値を持つ x を設計したりします。モデルを構築する目的としては、x から y を予測したり y が目標値となる x を設計したりすることの他に、x と y の間を関係性を理解することで、実験系やプロセスにおける現象を把握したり、物性や活性を発現するメカニズムを解明したりすることもあります。そのため構築されたモデルを解釈することが試みられています。XAI (eXplainable AI), LIME, SHAP, x の重要度, 決定木などです。

Cross-validated Permutation Feature Importance(CVPFI)～任意の回帰分析手法で、説明変数間の相関関係を考慮しながら安定的に変数重要度(特徴量重要度)を計算する手法[金子研論文]

金子研の論文が Analytical Science Advances に掲載されましたので、ご紹介します。タイトルはCross-validated permutation feature importance considering co...

真の意味で解釈でき、予測精度も高い線形モデルを開発しました！[金子研論文]

タイトルを見て、線形モデルは回帰係数 (各特徴量の目的変数に対する重み) が与えられるのだから、線形モデルを解釈できるのは当たり前では？？、と考えた方、非常に危険です。以下、必見です。金子研の論文が ACS Omega に掲載されましたので...

決定木(Decision Tree, TD)～直感的に分かりやすいモデル～

決定木(Decision Tree, TD)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、決定木で何ができるか、決定木をどのように計算するかが説明されています。pdfもスライドも自由にご利用ください。...

ここで注意することは、「解釈」というのは、データセットの解釈ではなく、あくまでモデルの解釈、ということです。例えば、決定木で x と y の間の関係を解釈するということは、構築された決定木モデルを解釈することになります。解釈した内容が本当かどうかは、モデルの予測精度にも、決定木のアルゴリズムにもよります。

解釈に用いられる他のすべての方法においても、あくまで構築されたモデルを解釈することになりますので、そもそも良好なモデルが構築できていなかったら、解釈できないことになります。もちろん解釈した結果自体を得ることはできますが、それはただの当てずっぽうです。例えば回帰分析において、テストデータやダブルクロスバリデーションの r² が 0 のモデルを解釈しても何も得るものはありません。

起きている現象を理解したい、物性や活性を発現するメカニズムを解明したい、といったときに、必要条件となるのは解釈に足るくらい予測精度の高いモデルを構築することです。良好なモデルが構築されて初めて、そのモデルを解釈しようとなります。

解釈した結果は、構築されたモデルに依存します。線形のモデルでは線形の解釈しかできませんし、非線形のモデルでも、構築されたモデルの非線形性しか解釈できません。線形モデル・非線形モデルのどちらでも、モデルがオーバーフィッティングしていたらオーバーフィッティングしたモデルが解釈されることになります。XAI, LIME, SHAP, x の重要度、決定木などの解釈するための情報が得られたら、それをすべて正として解釈しようとする人もいるかと思いますが、上記の点について考慮して解釈の結果を活用するとよいと思います

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。