回帰分析やクラス分類の話です。データセットがあるとき、まずモデル構築用データ (トレーニングデータ) とモデル検証用データ (テストデータ) に分けます。次にトレーニングデータで回帰モデル・クラス分類モデルを構築します。そして、モデル構築に用いていない新しいデータであるテストデータで、構築されたモデルがどのくらいの精度をもつか検証を行います。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

テストデータにおいて説明変数 X の値から目的変数 y の値を推定したとき、全体的にトレーニングデータにおける推定誤差と同じくらいの誤差であれば happy、というわけです。しかしながら、いつもそうとは限りません。

トレーニングデータの y の値は精度よく (誤差は小さく) 推定できたのに、テストデータにおける y の値の推定誤差が大きくなってしまった！ってことも起こります。あまりうれしくない話ですね。こんなとき、モデルがトレーニングデータにオーバーフィット (過学習) したのかなぁ、とか、テストデータがモデルの適用範囲の外なのかなぁ、とか、テストデータに外れ値があるのかなぁ、とか議論するわけです。

人工知能・機械学習のときには過学習 (オーバーフィッティング) に気をつけよう！～過学習とその対処法～

応化先生と生田さんが過学習 (オーバーフィッティング) について話しています。応化：今日は過学習についてです。生田：過学習？学習し過ぎるってこと？応化：その通りです。生田：だったら悪いことじゃなさそうに聞こえるけど・・・。学習をたくさんする...

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回帰モデル・クラス分類モデルを使うとき必須となる概念～

今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

外れ値検出 (Outlier Detection) もしくは外れサンプル検出 (Outlier Sample Detection) ～他の値・サンプルと大きく異なる値・サンプルを見つけよう！～

今回は、外れ値検出 (Outlier Detection) もしくは外れサンプル検出 (Outlier Sample Detection) についてです。他の値と大きく異なる値を見つけたり、他のサンプルと大きく異なるサンプルを見つけたりす...

もちろん、こういった議論は大事です。ただ、テストデータにおける推定精度が低いときにも、うれしいと思えることはあります。

それは

X と y の間の新しい関係を発見できたかも！？

ということです。トレーニングデータにおける X と y との間の関係を表現したモデルでは、テストデータにおける X と y との間の関係を表現できなかったということは、トレーニングデータにおける関係とは異なる関係がテストデータにはあるはずです。

そもそもの回帰分析・クラス分類の目的は、今あるすべてのデータセットを用いて X と y との間のモデルを構築することで、y の値がわからないデータにおいて、X の値のみから y の値を推定することです。トレーニグデータで構築したモデルと、最終的に用いるモデルとは異なります。最終的に用いるモデルは、トレーニグデータもテストデータも含むすべてのデータを用いて構築されたモデルなわけです。テストデータの X と y との間の関係を、最終的に用いるモデルに取り込めることで、より多様な X と y との間の関係をモデルで考慮できるようになります。モデルの適用範囲も広がるでしょう。

100点満点の試験で50点を取ってしまっても、復習して次に100点を取れれば OK !! といった感じでしょうか。むしろ試験を通して成長できていますね。

もちろん、トレーニグデータでは良好なモデルが構築できたことが前提の話ですし、最終的なモデルを構築するときも、y-randomization やモデルの適用範囲を検討する必要はあります。