決定係数r2、MAE、正解率などの統計量の扱いには注意しましょう

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデル構築を検討する際には、モデルの予測精度を適切に検証することが重要です。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

効率的にモデルの検証をするために、モデルの予測精度の指標が提案されています。回帰分析では、決定係数 r²、RMSE、MAE などがあります。クラス分類では、正解率、検出率、精度、F値、AUC などがあります。基本的な使い方としては、統計量の値を比較し、統計量ごとに大きい方が良い統計量と小さい方が良い統計量がありますので、統計量の値に基づいてどちらが良好か判断します。

しかし、統計量を使う際には注意点もあります。今回は３つの注意点について説明します。

1. 統計量の値自体には意味はない

統計量ごとに、いくつ以上の値を超えればモデとして完成、といったように、統計量の値自体に意味はありません。例えば、r² が 0.99 を超えているからといって、良いモデルとは限りません。

統計量の有効な使い方は、ただ比較することだけです。モデルAとモデルBの r² を比較し、r² が高い方がより良いモデルとします。なお、統計量の値自体に意味を持たせたい場合は、モデルを使用する状況や背景に応じて、その状況や背景に適した意味のある統計量を別途設定する必要があります。例えば、ある装置でソフトセンサーを運用する際に、誤差が一定値を超えてはいけないという場合には、誤差の最大値を統計量として、その超えてはいけない値以下かどうかで議論します。

2. 同じ y、同じサンプル郡でしか統計量の比較はできない

基本的に統計量は、同じ y、同じサンプル郡においてのみ、モデル間で比較が可能です。y が異なる、またはサンプルが異なると統計量の比較はできません。例えば、y_A のモデルの r² が 0.8 で、y_B のモデルの r² が0.9の場合に、y_B のモデルの方が良いモデル、とは言えません。例えば r² の式の中には y の分散に関する項があり、y の分散が異なると結果も全く異なってしまいます。

MAE は、誤差の絶対値の平均であり、2つのサンプル郡の間でサンプルの内容が異なることを把握した上で、誤差の絶対値の平均を計算する限り、比較は可能です。しかし、それはあくまで絶対誤差の平均値に過ぎませんので、それ以上のことは言えません。

3. 統計量の値が良好だからと言って必ずしも良いモデルであるとは言えない

統計量は全体を分かりやすく、複数のサンプルの情報を一つの値に分かりやすくまとめたものであり、そこに反映されない情報もあります。例えば MAE は絶対誤差の平均値であり、MAE が小さいということは誤差の平均が小さいことを意味しますが、仮に y の大きな値をもつ材料の実験条件を設計したい時には、もちろん MAE が小さい、すなわち誤差の平均が小さいことも重要ですが、MAE では y が大きいところの誤差が考慮されていません。この場合は y の実測値 vs 予測値の散布図を確認する必要があります。

統計量だけでは議論せず、回帰分析であれば y の実測値 vs. 予測値のプロットを、クラス分類であれば混同行列を確認して、モデルの良し悪しを判断しましょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。