トレーニングデータ・バリデーションデータ・テストデータの定義

トレーニングデータ・バリデーションデータ・テストデータの定義について書いておきます。バリデーションデータとテストデータとを逆の意味に使う人もいますが、ここでは wikipedia に記載されている内容にあわせます。

トレーニング、つまり学習についてはこちらをご覧ください。

人の学習と人工知能の学習~人工知能を学習させるとかモデルを構築するということ~
データ化学工学研究室 (金子研) では、化学・化学工学に関する人工知能の研究や人工知能を応用した研究をしています。人工知能は、無から勝手に発生するわけではなく、人工知能を学習させる必要があります。 ただ、特別な “学習” をさせているわけで...

 

トレーニングデータ (training dataset)

トレーニングデータは、回帰モデルやクラス分類モデルを構築するためのデータです。たとえば最小二乗法による線形重回帰分析をするとき、このデータにおける目的変数 y の誤差の二乗和を最小にするよう回帰係数が決められます。

トレーニングデータは、特にスペクトル解析の分野において、キャリブレーションデータ (calibration dataset) とよばれることもあります。

ちなみに日本語でいうと、モデル構築用データです。

最小二乗法による線形重回帰分析~人工知能・機械学習・統計の基礎の基礎~
最小二乗法による線形重回帰分析について、pdfとパワーポイントの資料を作成しました。目的変数と説明変数とのデータセットが与えられたときに、どのように回帰係数を計算するかが説明されています。最後には回帰モデルを比較するための指標3つをまとめて...

 

バリデーションデータ (validation dataset)

バリデーションデータは、回帰モデルやクラス分類モデルのハイパーパラメータを決めるためのデータです。たとえば部分的最小二乗回帰 (Partial Least Squares Regression, PLS) におけるハイパーパラメータは成分数です。成分数を 1, 2, 3, … と変えてモデルを構築し、それぞれのモデルでバリデーションデータの y の値を推定します。そして、yの実測値と推定値で計算された決定係数 r2 が最大となる成分数を選ぶわけです。

ハイパーパラメータを選んだ後は、トレーニングデータとバリデーションデータとを合わせてモデルを構築します。たとえばPLSのときは、選ばれた成分数で再び回帰モデルを構築するわけです。

ちなみに、バリデーションデータを用いずに、トレーニンデータのみからクロスバリデーションによりハイパーパラメータを選ぶ方法もあります。わたしは、ほとんどの場合において、クロスバリデーションでハイパーパラメータを選んでいます。

部分的最小二乗回帰(Partial Least Squares Regression, PLS)~回帰分析は最初にこれ!~
部分的最小二乗回帰 (Partial Least Squares Regression, PLS) について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、PLSで何ができるか、どのようにPLSを計算するかが説
回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)
いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...
ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず~サンプルが少ないときのモデル検証~
回帰モデルやクラス分類モデルを検証するときの話です。 モデルの検証 一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ...

 

テストデータ (test dataset)

テストデータは、トレーニングデータとバリデーションデータとを合わせたデータで構築された、回帰モデルやクラス分類モデルの推定性能を、最終的に検証するためのデータです。y の実測値を隠しておき、最終的なモデルで y の値を推定してから答え合わせをするため、ブラインドデータ (blind dataset) とも呼ばれます。

日本語でいうと、モデル検証用データです。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました