データセットを解析したり新たな手法を開発したりする時にチェックしていること

データ化学工学研究室 (金子研) では、いろいろなデータセットを解析したり、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスの新たな手法を開発したりしています。そのようなとき、共通する内容として、主に以下のことに注意して検討するようにしています。

 

  • サンプルの数
  • サンプルの分布
  • 説明変数 x の特徴量の数
  • x と目的変数 y の間の非線形性
  • x の間の相関関係
  • 外れ値

 

もちろんケースバイケースで内容は増えますが (分子関係なら化学構造、適応的実験計画法関係なら外挿性など)、多くの場合で共通して上記の内容を検討するようにしています。順に説明します。

 

サンプルの数

サンプルの数はもちろん大きい方がよいです。ただ、扱うデータセットによっては、サンプルを増やすのが現実的でなかったり、今あるサンプルで対応したかったりする場合もあります。そのときは、現状のサンプル数の中でできることをやるしかありません。特にサンプル数が小さいときには、手法やモデルの評価について注意する必要があります。誤った評価をしてしまい、少ないサンプルの中で精度が高く見える結果が得られても、新たなサンプルを予測するときに精度が低い、すなわち予測誤差が大きくなってしまいます。そのためサンプル数を確認し、特にそれが小さいときには手法やモデルを評価するときに注意をしています。

新たな手法を開発するときには、小さいサンプル数でも対応可能かどうか検証するようにしています。

 

サンプルの分布

サンプルの数も大事ですが、サンプルの分布も重要です。機械学習によって構築されるモデルはデータセットのサンプルに基づくことから、基本的にはモデルを構築したサンプルの近傍付近 (モデルの適用範囲) しか精度よく予測できません。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

そのためサンプルの分布が広い範囲にひろがっていることが、モデルの適用範囲の観点から望ましいです。しかし、場合によってはサンプルが偏って分布しているデータセットも存在します。サンプルの分布に偏りがある中で、モデルの適用範囲を適切に設定して、結果を評価する必要があります。

新たな手法を開発するときは、サンプルの分布に偏りがあっても機能するかどうかを検証するようにしています。

 

x の特徴量の数

y を説明できる情報が x の特徴量の中にあるのであれば、特徴量の数は小さい方がよいです。ただ実際は、データ解析をする前に重要な特徴量のすべてが分かっているわけではありませんので、特徴量として情報が不足していたり、逆に余計な特徴量が入っていたりもします。モデルの予測精度が低いとき、特徴量の情報が不足している場合は y と関係している新たな特徴量を設計しようと考えますし、新しい手法を開発するときは、y と関係しているかどうかわからない特徴量を含めて特徴量が多いときにも機能する手法がどうか検証するようにしています。

 

x と y の間の非線形性

x と y の間の関係が線形であれば、線形手法により x と y の間でモデルを構築できますが、非線形であれば、非線形手法を用いるか、非線形性を考慮して y との間の関係が線形になるような特徴量を設計するしかありません。もちろん、あらかじめ x と y の関係がわかっていることは稀ですので、いろいろな手法を検討したり、さまざまな特徴量を設計したりする必要があります。

新たな手法を開発するときは x と y の間に非線形性があっても対応可能かどうか検証するようにしています。

 

x の間の相関関係

x の多重共線性の問題により、x の間の相関関係がない方がモデルを構築しやすかったり、特徴量の重要度を計算しやすかったりします。なるべく多重共線性を排除するような方法を検討したり、新しい手法を開発するときには多重共線性がある中でも機能するかどうか検証したりしています。

 

外れ値

データセットの中に外れ値があると、誤ったモデルが構築されてしまったり、予測精度が低下したりしてしまいます。データセットの外れ値は注意しながら解析しますし、新たな手法を開発するときには、外れ値があっても頑健なモデルを構築できるか、特徴量の重要度などの指標を適切に計算できるか検証をするようにしています。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました