(ダブル)クロスバリデーションの予測結果が悪い時はどうするか？

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルの予測性能を評価するために、データセットをトレーニングデータとデストデータに分割して、トレーニングデータで構築したモデルを用いてテストデータを予測します。ただこの方法では、データセットのサンプルが少ないとき、テストデータのサンプルはさらに少なくなり、モデルの予測性能を適切に評価できません。そのため、すべてのサンプルをテストデータにすることが可能なダブルクロスバリデーションを用いることになります。

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず～サンプルが少ないときのモデル検証～

回帰モデルやクラス分類モデルを検証するときの話です。モデルの検証一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ, ...

これにより実質的に、あるデータセットを用いて構築できるモデルが、新たなサンプルを予測するときの性能を評価できます。なおハイパーパラメータのないモデル構築手法では、ダブルクロスバリデーションはクロスバリデーションと同意になります。

クロスバリデーションとダブルクロスバリデーションの整理

言葉の似ているクロスバリデーションとダブルクロスバリデーションですが、意味合いが異なります。目的の違いとして、クロスバリデーションの目的は PLS における主成分の数や SVR における C, ε, γ といったハイパーパラメータを最適化す...

このダブルクロスバリデーションでも y を良好に予測できなかった場合、新たなサンプルも予測できないことになりますので、モデル構築において工夫が必要、となります。

ダブルクロスバリデーションでも y の予測結果が悪かったとき、まずは、なぜダブルクロスバリデーションでも予測できなかったかを考えます。回帰分析でダブルクロスバリデーション後の r² などの統計量しか見ていなかったり、クラス分類で正解率などの統計量しか確認していなかったりする場合は、回帰分析では実測値 vs. 推定値プロットを、クラス分類では混同行列を、必ず確認しましょう。予測できなかった状況を詳細に把握できます。例えば回帰分析においては、サンプル全体の予測誤差が大きいのか、サンプルごとに予測誤差に偏りがあるのか、1つ2つの外れサンプルのために予測できていないのか等、多くの情報が得られます。

これにより、例えば外れサンプルが大きく影響している場合はそのサンプルに問題はないか (サンプル間違い、構造間違い、転記誤り、実験ミス等がないか)、確認します。予測誤差に偏りがあれば、偏りのあるサンプル群と、偏りのないサンプル群とで差異のある可能性があります。このように、まずは回帰分析では実測値 vs. 推定値プロットを、クラス分類では混同行列を見て、ダブルクロスバリデーションにおける予測結果が悪い状況を詳細に確認しましょう。

続いて、まだいくつかの回帰分析手法やクラス分類手法しかダブルクロスバリデーションを実施していないのであれば、幅広く手法を検討しましょう。いくつかの限られた手法では、オーバーフィッティングもしくはアンダーフィッティングを起こしていて、新しいデータであるテストデータを予測できなかった可能性があります。多様な数多くの手法で比較検討しましょう。ちなみに、Datachemical LAB には 25 種類以上の手法が搭載されており、ダブルクロスバリデーションも可能です (2024年1月7日現在)。

化学・化学工学分野におけるデータ解析・機械学習クラウドサービス「Datachemical LAB」

化学・化学工学分野におけるデータ解析・機械学習が、プログラミングなしでできるクラウドサービス「Datachemical LAB」を開発し、提供を開始しましたので、ご案内します。プレスリリースは以下をご覧ください。Datachemical L...

たくさんの手法を検討してもダブルクロスバリデーションで予測できない時は、特徴量 x を工夫する必要があるか、サンプルを増やす必要があるかです。x に、新たなサンプルにおける y の値を予測するために必要な情報が含まれていなかったり、y を予測するには不要な情報 (ノイズ) が大量に含まれていたりする可能性があります。x に必要な情報を追加することや、x から不要な特徴量を削除することを試みましょう。