不均衡なデータセットを扱うときの注意点

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

クラス分類において、クラスごとのサンプル数に偏りがあるとき、サンプルの多いクラスをアンダーサンプリングしたり、サンプルの少ないクラスをオーバーサンプリングしたりして、不均衡を解消してからモデリングすることがあります。ちなみに、オーバーサンプリングは “偽” のサンプルを追加することになりますので、そのようなデータを用いる妥当な理由がない限りは、控えた方がよいでしょう。

回帰分析においては、不均衡データを解消しても効果がないことはこちらで述べた通りです。

データ解析・機械学習における、よくある誤解 4 選
共同研究やコンサルティングなどで、いろいろな方々とお話していると、データ解析・機械学習に関連した誤解があることに気づきます。確かに、一見妥当そうな内容ですので、誤解するのは仕方ないと思いますし、実際、中にはわたしも昔に同じことを考えており、...

 

ただし、こちらのように

yが0や1(100)の値をもつデータセットの扱い方
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

0 や 1 (もしくは 100) のサンプルについては、うまく対処すると予測精度が向上することがあります。

クラス分類においてアンダーサンプリングで不均衡データを解消しようとしたり、回帰分析において 0 や 1 のサンプルを削除したりすることがありますが、このとき注意するのは、モデルの適用範囲 (Applicability Domain, AD) です。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

サンプルを削除することにより予測精度が向上しても、同時に AD は狭くなります。しっかりと AD を設定して、狭くなった AD を認識しておくことが重要です。

クラス分類のとき、アンダーサンプリングをしてモデル構築することを繰り返すことでアンサンブル学習をすることもあります。AD を設定することを考えたとき、アンサンプル学習だけでは AD は広く取られてしまいますので、

(回帰モデルと比べて)クラス分類モデルで注意すること
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y =...

 

例えばデータ密度に基づく AD と組み合わせることが重要です。

アンダーサンプリングをはじめとして、サンプルを削除した後も適切に AD を設定するようにしましょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました