データ解析・機械学習におけるベストプラクティスとは

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

例えば予測精度の高いモデルを構築するために、x の特徴量化の検討をしたり、ノイズや外れ値を処理する様々なデータの前処理法があったり、有効なx のみを選択するための様々な変数選択法があったり、モデルを構築する様々な方法があったりします。これらの方法およびそれらの組み合わせが多数存在するため、その中から最も優れた方法、すなわちベストプラクティスを見つけたいと思うかもしれません。

しかし、データ解析や機械学習においては、どのようなデータセットにおいても一つのベストプラクティスとなる方法やその組み合わせは存在しません。データセットごとに様々な方法を比較検討し、そのデータセットに適した手法を選択する必要があります。

そのため、重要なことは、適切に評価することです。例えばモデルの予測精度を高めるための手法を選択する際には、特徴量化の方法、前処理方法、変数選択方法、モデル構築方法を組み合わせとして検討し、最適な組合せを選択します。選択する際に重要なことは、モデルの予測性能の適切な評価です。基本的にはテストデータとトレーニングデータの分割やダブルクロスバリデーションを用いて評価しますが、対象とする材料によっては評価方法を工夫する必要があります。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず～サンプルが少ないときのモデル検証～

回帰モデルやクラス分類モデルを検証するときの話です。モデルの検証一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ, ...

単体・化合物と実験条件・製造条件の両方が変わるデータセットの解析の仕方

データセットを用いて説明変数 X と目的変数 Y との間でモデル Y = f(X) を構築するときの話です。材料のデータセットを扱うときは、X が化合物の化学構造や結晶構造や金属の特徴量だったり、単体や化合物の組成比だったり、その他の実験条...

モデルを運用することを想定して、モデルの設計をしましょう！

説明変数 X と目的変数 Y の間でモデル Y = f(X) を構築するとき、やはり今あるデータで構築できる最適なモデルを構築したいと思います。そのためモデルを設計します。新たな X を提案・作成したり、X の組み合わせを選んだり、回帰分析...

材料開発・プロセス開発等のプロジェクトの目的に応じて適切な評価方法を検討することが重要です。特徴量化の方法、データの前処理方法、変数選択法、機械学習法などは絶えず新たな手法が開発されていますし、私の研究室でも開発していますが、データ解析や機会学習のユーザーとしては、プロジェクトの目的に応じて適切な方法を選択し、評価することに注力すると良いでしょう。これにより、対象の材料やプロセスの開発におけるベストプラクティスを適切に見つけることができるでしょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。