分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルの予測性能を評価するために、データセットをトレーニングデータとデストデータに分割して、トレーニングデータで構築したモデルを用いてテストデータを予測します。ただこの方法では、データセットのサンプルが少ないとき、テストデータのサンプルはさらに少なくなり、モデルの予測性能を適切に評価できません。そのため、すべてのサンプルをテストデータにすることが可能なダブルクロスバリデーションを用いることになります。
これにより実質的に、あるデータセットを用いて構築できるモデルが、新たなサンプルを予測するときの性能を評価できます。なおハイパーパラメータのないモデル構築手法では、ダブルクロスバリデーションはクロスバリデーションと同意になります。
このダブルクロスバリデーションでも y を良好に予測できなかった場合、新たなサンプルも予測できないことになりますので、モデル構築において工夫が必要、となります。
ダブルクロスバリデーションでも y の予測結果が悪かったとき、まずは、なぜダブルクロスバリデーションでも予測できなかったかを考えます。回帰分析でダブルクロスバリデーション後の r2 などの統計量しか見ていなかったり、クラス分類で正解率などの統計量しか確認していなかったりする場合は、回帰分析では実測値 vs. 推定値プロットを、クラス分類では混同行列を、必ず確認しましょう。予測できなかった状況を詳細に把握できます。例えば回帰分析においては、サンプル全体の予測誤差が大きいのか、サンプルごとに予測誤差に偏りがあるのか、1つ2つの外れサンプルのために予測できていないのか等、多くの情報が得られます。
これにより、例えば外れサンプルが大きく影響している場合はそのサンプルに問題はないか (サンプル間違い、構造間違い、転記誤り、実験ミス等がないか)、確認します。予測誤差に偏りがあれば、偏りのあるサンプル群と、偏りのないサンプル群とで差異のある可能性があります。このように、まずは回帰分析では実測値 vs. 推定値プロットを、クラス分類では混同行列を見て、ダブルクロスバリデーションにおける予測結果が悪い状況を詳細に確認しましょう。
続いて、まだいくつかの回帰分析手法やクラス分類手法しかダブルクロスバリデーションを実施していないのであれば、幅広く手法を検討しましょう。いくつかの限られた手法では、オーバーフィッティングもしくはアンダーフィッティングを起こしていて、新しいデータであるテストデータを予測できなかった可能性があります。多様な数多くの手法で比較検討しましょう。ちなみに、Datachemical LAB には 25 種類以上の手法が搭載されており、ダブルクロスバリデーションも可能です (2024年1月7日現在)。
たくさんの手法を検討してもダブルクロスバリデーションで予測できない時は、特徴量 x を工夫する必要があるか、サンプルを増やす必要があるかです。x に、新たなサンプルにおける y の値を予測するために必要な情報が含まれていなかったり、y を予測するには不要な情報 (ノイズ) が大量に含まれていたりする可能性があります。x に必要な情報を追加することや、x から不要な特徴量を削除することを試みましょう。
なお、ここで機械学習による特徴量選択・変数選択をするときは、ダブルクロスバリデーションとはいえ結果を最適化してしまうとオーバーフィッティングをする可能性があるため注意しましょう。
x を工夫しても らちが明かない場合は、サンプルを追加する必要があります。新しいサンプルを予測する上で適切なモデルを構築できるようになり、ダブルクロスバリデーションにおける予測結果が良好になることもあります。
以上のように、ダブルクロスバリデーションでも予測精度が悪い時には、1つずつ確認したり検討したりしながら、状況を改善するようにしましょう。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。