わたしもついに Beware of … 系の論文を書いてしまいました。その名の通り、注意喚起する系の論文です。過去には他にこんなものがありました。

Beware of q²!
Beware of R²: Simple, Unambiguous Assessment of the Prediction Accuracy of QSAR and QSPR Models
Beware of Unreliable Q²! A Comparative Study of Regression Metrics for Predictivity Assessment of QSAR Models
Beware of ligand efficiency (LE): understanding LE data in modeling structure-activity and structure-economy relationships
Beware of Naïve q2, use True q2: Some Comments on QSAR Model Building and Cross Validation
Beware of External Validation! – A Comparative Study of Several Validation Techniques used in QSAR Modelling

今回は、r² based on the latest measured y-values (r²_LM) という、ソフトセンサー解析などの時系列データ解析のための新しい r²を開発し、いろいろなソフトセンサー解析を行った論文が、Journal of Chemometrics に掲載されましたのでご紹介致します。

Just a moment...

金子研オンラインサロン内ではこの論文を共有しています。ちなみに提案手法を実行できるコードはこちらにあります。

GitHub - hkaneko1985/r2lm: r2 based on the latest measured y-values (r2LM)

r2 based on the latest measured y-values (r2LM). Contribute to hkaneko1985/r2lm development by creating an account on Gi...

どうして時系列データで一般的な r² を使うとダメなのか？

それは、実際にはモデルの推定性能は高くないにもかかわらず、テストデータを用いたときでも r² が大きく(ときには 0.999 にも！？) なってしまうことがあるためです。なぜそうなるかについて説明します。

そもそも r² とは、トレーニングデータを使った場合でもテストデータを使った場合でも、そのデータにおける目的変数 y のばらつきの中で、回帰モデル (たとえばソフトセンサー) によって説明できた割合をあらわす指標のことです。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

テストデータの r² は、r²_T (r² for test data) とか r²_P (r² in prediction) とか書かれることもありますね。たとえば r²_T = 0.9 のとき、モデルはテストデータの y のばらつきのうち 90% を説明できた、と考えます。

r² を式で表すとこちらにようになります。

n がサンプル数、y^(t) が t 番目のサンプルにおける y の実測値、y_EST^(t) が t 番目のサンプルにおける y のモデルによる推定値、y_AVE が y の実測値の平均値です。分母が y の平均からの実測値のばらつき、分子が y の推定誤差のばらつきを表します。

時系列データのとき、t は時間的な意味合いを持ちます。t が大きくなるということは、それだけ時間が進むということです。

時系列データの特徴はいくつもありますが、r² に関連するものは次の２つです。

時間的に近いサンプルの値が似ている
トレーニングデータが更新される

1. について、横軸を時間にしたデータ点のプロットは、スペクトルデータに似ています。そのため、スペクトルデータの前処理と同じような処理が、時系列データにも使えたわけです。

スペクトル・時系列データの前処理の方法～平滑化 (スムージング) と微分～

スペクトル解析のときや、時系列データを扱うときの話です。いくつかの点でスペクトルデータと時系列データは似ています。たとえば、隣同士の値が似ているっていう点ですね。他にも、データにノイズが含まれるという点も共通した特徴です。このようにスペクト...

2. についてはこちらに書いたとおりです。

時系列データを扱うときの３つの注意点(ソフトセンサー解析など)[データ解析用のPythonプログラム付き]

一般的なデータ解析において、回帰モデルやクラス分類モデルをつくることを考えます。トレーニングデータとテストデータに分けて、トレーニングデータで回帰モデルやクラス分類モデルを構築して、そのモデルがどのくらいの推定性能をもつか、テストデータで検...

y の新しい測定データを使って、回帰モデル (ソフトセンサー) を再構築したり、次の y の値を推定できたりするわけです。

これらの特徴から、ある時刻の y の値を推定するとき、直近の y の実測値をその推定値として用いても、ある程度近い値になることが想像できると思います。回帰モデルがなくても、最新の y の実測値を、y の推定値として出力し続けていれば、そこそこ合ってしまうわけです。

このため、どんなモデルを用いたとしても、そしてテストデータで検証したとしても、r² の値は大きくなる傾向があります。しかし、本来知りたいのは、回帰モデルによって、どれくらい y の値を説明できたか、です。時系列データを用いたときの r² は、その知りたいことからかけ離れています。たとえば r²_T = 0.9 のときでも、モデルによってテストデータの y のばらつきのうち 90% を説明できた、とはいえないわけです。

ではどうするか？ → 直近の y からのばらつきを考えよう！

そこで r² based on the latest measured y-values (r²_LM) の登場です。式で表すと次のようになります。

もともとの r² と似ていますね。違うのは、y_AVE → y^(t-1) だけです。どういうことかというと、r² では分母が y の平均値からのばらつきであったのに対し、r²_LM は y の一時刻前の値からのばらつきなのです。こうすることで、時系列データのように、(値が似ている) 時間的に近い値があるなかで、回帰モデルによってどれだけ y を説明できたか、指標として表せるわけです。たとえば、テストデータにおける r²_LM = 0.9 のとき、モデルによってテストデータの y のばらつきのうち 90% を説明できた、といえます。