機械学習モデルを使うべきか、使わないべきか？

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

色々な分子設計・材料設計・プロセス設計、そして実験系やシミュレーション系において、データ解析・機械学習をするかどうか、検討している人もいらっしゃるかと思います。この検討をする際に重要なのは、

機械学習を実際にやってみないと検討できない
機械学習モデルを使わない時の代替案は何かを考える

ということです。

仮に機械学習モデルを使わない時に、x を探索する手段が他にない時は、そもそも x の空間が非常に広いなかで、その空間から回帰モデルやクラス分類モデルなしには全く分からない x の解を、探索することになります。

機械学習モデルを構築して予測精度を検証した結果、例えばダブルクロスバリデーション後の R² が 0.1 のように小さくても、0以上であれば、この回帰モデルを使用しない場合と比べて使用した方が少しでも x の探索の効率をモデルが上げてくれます。また、例えば単純にクラス0のサンプル、クラス1のサンプルの数がそれぞれ同じ時に外部データに対する正解率が 50% を超えていれば、このクラス分類モデルを使わない場合と比べて x の探索効率を上げてくれます。このような場合には機械学習モデルを使用した方が良いということになります。

もちろん、実験者の経験や、分子シミュレーション・プロセスシミュレーションのように、データ解析・機械学習以外の手段があるのであれば、その効率や精度と比較して、現在の機械学習モデルの予測精度が良いか悪いかを判断し、良ければ使用することになりますし、悪ければ使用しないことになります。

機械学習モデルの予測精度は、実際に機械学習をやってみないと絶対に分かりません。例えば、トレーニングデータとテストデータの分割やダブルクロスバリデーションで回帰モデルやクラス分類モデルの予測精度を検証しないとわかりません。