モデルの解釈は教師なし学習、データの可視化やクラスタリングと同じ位置づけとして実施しましょう!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と材料の物性・活性・特性や製品の品質などの y との間で、データセットを用いて機械学習により数理モデル y = f(x) を構築します。構築したモデルを用いて、x の値を入力して y の値を予測したり、y の値が目標値となるような x の値を設計したりします。また、モデルを解釈して x と y の関係を議論したり、y が発現するメカニズムを解明しようとしたりすることもあります。ただ、モデルの解釈についてはこちら↓に書いたように、あくまで「結果的に構築されたモデル」を解釈することになります。

データ解析や機械学習でできる解釈は、あくまで「モデル」の解釈
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と材料や製品の物性・活性・特性などの目的変数 y との間で、データセットを用いて数理モデル y =...

 

例えばモデル構築手法が異なるときに、それらの手法で構築されたモデルはそれぞれ異なりますので、それぞれモデルの解釈の結果が異なることは、問題なくありえます。線形モデルだからといって、2つの線形モデルの間で解釈の結果が同じになるわけではありません。サンプルを変えると、解釈の結果も変わることがあります。逆に、複数のモデルで同じような解釈ができたからといって、それぞれのモデルで解釈した結果の正しさが上がるわけでもありません。

モデルを解釈することだけでは、その解釈の結果が正しいかどうかはわかりません。正解がないので、データの可視化やクラスタリングと同様の、教師なし学習といえます。得られた結果を用いて人が議論することになり、結果が正しいかどうかはデータのみからは検証できません。もちろん、回帰係数=寄与度とすることは危険、といったような理論的にいわれている知見は大いに活用するとよいでしょう。

回帰係数=寄与度とすることは危険、どうしても寄与度を求めたいときはPCRやPLSの1成分モデルで、ただ基本的には寄与度ではなく重要度で議論
タイトルで言いたいことはほとんど言っていますが、丁寧に説明します。たとえば最小二乗法による線形重回帰分析や部分的最小二乗回帰 (Partial Least Squares Regression, PLS) や Least Absolute ...

 

解釈の結果が正しいかどうかは、例えば解釈したとおりに追加実験をするなどで、別途検証する必要があります。

モデルを解釈することは教師なし学習としてとらえ、正解があるわけではないことを認識しながら、モデルの解釈の結果を議論するとよいでしょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

 

タイトルとURLをコピーしました