r2やRMSE・MAEはもう古い!?回帰分析においてモデルを評価するための新しい指標を開発しました

シェアする

データ化学工学研究室としての最初の論文が掲載されました。つまり、わたしが明治大学に異動したあとに実施した研究成果の論文として、初めてのものです。その報告をすると同時に、論文の内容の概要を説明します。なお2017年11月26日までこちらから無料で論文を見ることができるようです。

この論文は、回帰モデルを評価するための新しい指標についてです。

回帰分析の指標というと、これまで r2や RMSE・MAE が使われてきました。それぞれの指標を計算するために用いるサンプルによって、異なる性能を評価できます。回帰モデルを構築したサンプル (トレーニングデータ) を用いると、回帰モデルがトレーニングデータにどれくらい適合 (フィット) しているか、を評価できます。トレーニングデータとは別のサンプル (テストデータ) を用いると、回帰モデルの新しいデータに対する推定性能を評価することができます。

ただ、これまでの r2・RMSE・MAEに欠けていたのは、モデルの適用範囲 (適用領域) という概念です。モデルの適用領域については、こちらをご覧ください。そちらに書いてあるモデルの適用領域についてまとめると、ある回帰モデルが構築されたとき、そのモデルが新しく推定したいサンプルに対して、モデル構築用データと同じような推定性能を発揮できるデータ領域です。

サンプル数とモデルの適用領域の記事は、モデルを構築するために用いるサンプルの数が増えると、モデルの適用領域が広がる、という話でした。今回着目したのは、モデル構築用のサンプルがまったく同じでも、回帰モデルを構築する手法およびその作り方によって、モデルの適用領域は異なるということです。

例えば線形の回帰モデルと非線形の回帰モデルがあるとしましょう。線形モデルが単純 (シンプル) なモデル、非線形モデルは複雑なモデルです。線形モデルは、線形という縛りがあるので、モデル構築用サンプルに対して非線形ほどうまく合わせることはできません。非線形モデルの方が線形モデルより複雑な形をしているため、モデル構築用のサンプルにフィットするモデルが作れるわけです。

ただ線形モデルは、比較的シンプルなモデルになりますので、モデルの適用領域は非線形モデルの適用領域より広いと考えられます。非線形モデルは、モデル構築用サンプルに近いサンプルについては、うまく推定できますが、モデルが複雑なのでモデル構築用データの領域から少しでも離れると、すぐに推定性能が下がると考えられます。

まとめると、それぞれ線形モデルと非線形モデルの特徴は、下の表のようになります (正しい表の書き方ではないのですが、WordPressでの罫線の編集の仕方が分からず、断念・・・)。

モデルの適用範囲 モデルの適用範囲内での性能 テストデータに対するr2
線形モデル 広い ほどほど 0.8 (例)
非線形モデル ほどほど 高い 0.8 (例)

線形モデルは、非線形モデルより適用領域が広い一方で、その領域中の推定性能は、非線形モデルより劣ります。非線形モデルは領域内の推定性能は高い一方で、適用領域は線形モデルより狭いです。

このような状況のとき、たとえばテストデータに対する r2 といった従来の回帰分析の指標の値を計算すると、線形モデル・非線形モデルのそれぞれの特徴が平均化されてしまい、両方とも0.8、という同じような値になってしまいます。

ただ、あるサンプルの目的変数の値を推定したいとき、そのサンプルが非線形モデルの適用領域内にあれば、非線形モデルを使った方がよいわけです。そして、非線形モデルの適用領域の外であれば、線形モデルを使いたくなります。

ここでは分かりやすく、線形モデルと非線形モデルという2つだけで考えてみました。しかし実際は、いろいろな回帰分析手法があり、同じ手法でもモデルのハイパーパラメータごとに異なる回帰モデルが作られます。モデルごとに異なるモデルの適用領域があり、その領域内の推定性能も異なるわけです。

そこで、モデルの適用領域の広さも考慮して、回帰モデルの推定性能を評価する指標を開発しました。その指標では、モデルの適用領域の広さごとに r2・RMSE・MAE を計算しておきます。新しいサンプルの目的変数の値を推定したいとき、それぞれのモデルの適用領域の広さごとの領域内の推定性能がわかっているので、推定したいサンプルに最適なモデルを選べるわけです。

今回開発した指標を、p%-AUCRと名付けました (なぜその名前か、は論文をご覧ください)。これはモデルの適用領域の p % における推定性能を表します。たとえば、あるサンプルの目的変数の値を推定したいとき、複数の回帰モデルがあるとすると、そのサンプルに対する p%-AUCRを計算し、それが小さいモデルを使おう!、と判断できます。

今回は毒性データをもつ化合物や水溶解度データをもつ化合物を解析することで、

  • 複数の種類の回帰モデルに対して、モデルの適用領域の広さごとにモデルの推定性能が変わる
  • 提案した指標が有効に機能する

ということを確認しました。詳しくは論文をご覧ください。

なお2017年11月26日までこちらから無料で論文を見ることができるそうです。

以上になります。明治大学での研究成果として1本目の論文が通ったということで、とりあえず安心しましたが、これからも研究も頑張っていきます。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする