サンプルが少ないときは解析結果が変わりやすい

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

サンプルを増やすとモデルの予測精度が上がる、と考えている方もいらっしゃると思いますが、正確に言えばモデルの適用範囲が広がる、です。詳細はこちらをご覧ください。

モデルを作るのにサンプル数はいくつ必要か?に対する回答~モデルの適用範囲・モデルの適用領域~
統計だったり機械学習だったりニューラルネットワークだったり、データを使ったモデルの開発をしていますと、いくつサンプルがあったらモデルはできますか?ってよく聞かれます。今回はこの質問に答えながら、モデルの適用範囲・モデルの適用領域について説明...
[無料公開] 「化学・化学工学のための実践データサイエンス―Pythonによるデータ解析・機械学習―」 の “まえがき”、目次、第1・2章
2022 年 10 月 5 日に、金子弘昌著の「化学・化学工学のための実践データサイエンス―Pythonによるデータ解析・機械学習―」が出版されました。朝倉書店: Amazon: これまで他に、三冊の本 「化学のための Pythonによるデ...

 

サンプルが増えたとしても、モデルの適用範囲内の予測精度は、もちろん予測精度を適切に評価できていること前提で、変わりません。ただ、サンプルが少ないときは、その前提が成り立たないことが多いです。なぜなら、サンプルが少ないときの問題の一つに、解析結果が変わりやすいことがあるためです。例えば、決定木やランダムフォレストのように、モデリングにおいてランダム性があると、実行することにモデル構築の結果や予測結果も変わります。この変化は、サンプルが少ないほど大きい傾向があります。

ランダム性のない手法であれば問題にならないかというと、そうではありません。サンプルが少ないとき、どんな手法にも潜在的には同様の問題があります。例えば、サンプルを一つ増やしたり減らしたり、もしくは x を減らしたり増やしたりしたときに、本質的な変化とは別に、モデルは変わりやすく (それにより変数重要度も変わりやすい)、また予想結果も変わりやすいです。

これにより、モデル評価のなかでモデルがコロコロ変わったり、モデル評価時のモデルと最終的に構築したモデルとが大きく変わったりする可能性があり、予測精度が高いと評価されたモデルであっても、その後、予測精度が悪い方向に変わってしまう、ということがあります。そのようなことが起こらないように、例えばモデルの予測精度の評価は、なるべく繰り返すごとに結果は変わらないような方法でやります。トレーニングデータ テストデー 分割でテストデータのサンプル数が小さくなってしまうときは、ダブルクロスバリデーションで、さらに外側のクロスバリデーションを leave-one-out にします。

このように、サンプルが少ないときには結果が変わりやすいことを認識しつつ、なるべくその変化が起こらないようにすることを意識して、モデルの評価をはじめとするデータ解析・機械学習を進めるとよいでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました