r2や正解率を上げることを目的にしない

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

一般的に、テストデータやダブルクロスバリデーションの結果における、回帰分析では例えば r2、クラス分類では例えば正解率が高くなるようにモデル構築を行います。多くの場合において、これは適切なアプローチです。しかし一方で、r2 や正解率を無条件に上げることが目的となると、危険な場合もあります。

データ解析・機械学習はそれ自体が目的ではなく、分子設計・材料設計・プロセス設計・プロセス管理における何らかの目的を達成するための手段に過ぎません。達成したい目的のためには、どんなモデルが必要かという観点が重要です。

r2 や正解率は、あくまで比較するための一つの指標です。たとえば、モデルAの r2 がモデルBの r2 より大きい場合、モデルBを選択するといった判断がされますが、r2 がいくつ以上、正解率がいくつ以上であればモデルの予測精度が十分、ということはありません。もちろん、r2 が大きいほど、サンプル全体の誤差は小さくなる傾向にありますが、モデルを使用する目的によっては、全体的な誤差を小さくする以上に、y のある範囲において誤差が小さい方が望ましいこともあります。

例えば、回帰分析において実測値 vs. 予測値プロットを確認して、目標とする y の範囲の予測誤差がどうなっているかも重要です。この観点から言えば、仮に r2 が多少低くても、目標とする y の範囲の誤差が小さいモデルを選択することが有効です。

クラス分類でも、正解率だけでなく、混同行列を確認することが重要です。分類の目的によっては、クラスAと誤って予測してしまうサンプルとクラスBと誤って予測してしまうサンプルで、どちらを減らしたいかが変わります。その数を確認することで、より本来の目的に沿ったモデルを得ることができます。

さらに、分子設計・材料設計・プロセス設計・プロセス管理にモデルを用いる観点から、現在のデータセットの予測精度が高いだけでなく、より広範囲の x の値を予測できる方が望ましいです。いわゆるモデルの適用範囲が広い方が有利です。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

r2 や正解率が多少低くても、モデルの適用範囲が広がるようにモデルを構築すると良いでしょう。

別の観点からの指摘としては、テストデータやダブルクロスバリデーションの結果をもとに、r2 や正解率を上げるとモデルがテストデータやダブルクロスバリデーションの結果にオーバーフィットすることがあります。r2 や正解率をはじめとする何らかの指標を盲目的に追求するのではなく、より広い視点でモデルの予測性能を評価すると良いでしょう。

また分子設計・材料設計・プロセス設計・プロセス管理の目的によっては、r2 や正解率を上げやすい解析方法ではなく、より目的に合致した (r2 や正解率を上げにくい) 解析方法が適切なこともあります。例えばこちらです↓

単体・化合物と実験条件・製造条件の両方が変わるデータセットの解析の仕方
データセットを用いて説明変数 X と目的変数 Y との間でモデル Y = f(X) を構築するときの話です。材料のデータセットを扱うときは、X が化合物の化学構造や結晶構造や金属の特徴量だったり、単体や化合物の組成比だったり、その他の実験条...

r2 や正解率を上げようとするあまり、テストデータやダブルクロスバリデーションの評価方法を間違えないようにしましょう。

繰り返しになりますが、r2 や正解率はあくまで一つの指標です。モデルとして望ましいのは、x と y の間の関係を「適切」に数式化することです。この「適切」というのは、上で述べたように、分子設計・材料設計・プロセス設計・プロセス管理の目的に依存しますし、モデルがどの範囲まで適用できるかも非常に重要な観点です。以上のようにデータ解析・機械学習を行う際には、テストデータの r2 や正解率を上げようとする工夫も重要ですが、それ以外にも見落としている点はないか、本来の目的に沿って考えることが大切です。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました