トレーニグデータを増やしてテストデータを予測したらどうなった?

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

今回は、x と y の揃ったサンプルが増えた状況について考えてみます。

モデルの予測精度を検証する時、(ダブルクロスバリデーションを用いなければ) 通常はトレーニングデータとテストデータに分割して、トレーニングデータでモデルを構築し、テストデータで予測して、その予測結果に基づいてモデルの予測精度を検討します。ただ、ここでは分かりやすく、また考えやすくするため、あえてテストデータを固定して、トレーニングデータのみのサンプルが増えた場合を考えます。

トレーニングデータのサンプルが増えた場合には、当たり前ですが、以下の3つのどれかが起こります。

テストデータに対する予測精度が

  1. 上がる
  2. 変わらない
  3. 下がる

順番に何が起きているか考えてみます。

1. テストデータに対する予測精度が向上した場合

一言でいえば、モデルがx と y の間の真の関係に近づきました。オーバーフィッティングが軽減され、またモデルの適用範囲が広がったと言えるでしょう。この状況では、例えばモデルの逆解析の確度も上がりますし、変数重要度や特徴量重要度などによるモデルの解釈も、より正しい解釈結果となります。

 

2. テストデータに対する予測精度が変わらない場合

サンプルを追加しても、モデルが変化しませんでした。この要因の一つとして、追加したサンプルが既存のサンプルと類似していることが考えられます。元のサンプルと同じようなサンプルしか追加されなかったため、オーバーフィッティングを低減する効果がなかったり、モデルの適用範囲が広がらなかったりしたと考えられます。この場合、次に追加するサンプルは、既存のサンプルと異なるサンプルを選ぶようにしましょう。

現状の特徴量と現状の機械学習法では、これ以上 x と y の真の関係に近づくことができない、とも考えられます。この場合、新たな x を考えて追加し、解析する必要があります。

 

3. テストデータに対する予測精度が低下した場合

サンプルを追加すると、モデルが真の x と y の間の関係から離れてしまいました。追加したサンプルが外れサンプルであると考えられます。まずは、追加したサンプルに何か異常はないか確認しましょう。以上があれば、それを修正して再度テストデータに対する予測精度を検証しましょう。

特に異常がない場合は、現状の x では表現できない x と y の間の関係が、そのサンプルに含まれていると考えられます。その外れサンプルと他のサンプルとの、x と y の間の関係を結びつける新たな x を考える必要があります。

 

トレーニングデータを増やしてテストデータを予測した時の現象ごとに、考えられる要因と次のアクションを説明しました。ぜひ、サンプルを増やした時には検討すると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました