サンプルを集めるときに意識するとよいこと [データベース作成]

分子設計や材料設計をするときや、プラントにおいてソフトセンサーを検討しようとするとき、

(分子設計・材料設計・ソフトセンサーについてはこちら)

主な研究テーマたくさんの化学データを見える化する化合物の物性・機能性と化学構造との間の関係を明らかにする新しい化学構造をパソコンで設計する次に行うべき実験やシミュレーションの内容を計算で提案する化学プラントの内部状態を推定する適...

それぞれ、何らかの数値モデルを構築することになります。データ解析・機械学習を駆使してモデルを構築するとき、データが必要となるため、データベースを作成することになります。モデル構築用のサンプルを集めるわけですね。サンプルを集めるときに意識するとよいことについて説明します。

データベースを作るときの基本的なスタンスは、なるべく多くのデータを集める、です。サンプルも、特徴量も、数多く集めるということです。エクセルのシートでいえば、縦の行も、横の列も多いほうがよいですね。サンプルが多いことがよいのはもちろんのこと、特徴量も多い方がよいのです。

たとえば、材料設計でしたら製品品質としての活性・物性・特性 Y と、実験レシピ、つまり実験条件や製造条件 X との間で数値モデル Y=f(X) を構築することになります。また、ソフトセンサーでしたら測定が困難なプロセス変数 Y と簡単に測定可能なプロセス変数 X との間で数値モデル Y=f(X) を構築します。このモデルを構築するとき、サンプルが多い方が、モデルの適用範囲の広いモデルを構築できます。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回帰モデル・クラス分類モデルを使うとき必須となる概念～

今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

より広い X の範囲で安定的に Y の値を予測できるわけですね。いろいろなサンプルにおいて Y の推定値を信頼できてうれしいです。そのため、データ収集をするとき、なるべく多くのサンプルがあったほうがよいです。まったく同じ目的、実験系でなく、すこし毛色の違ったサンプルがあるときには、それらも集めておけば、たとえば転移学習を検討することも可能です。

[解析結果とPythonコードあり] 転移学習 (Transfer Learning) を用いたデータ解析

転移学習 (Transfer Learning) について、パワーポイントの資料とその pdf ファイルを作成しました。どんなシチュエーションで転移学習が使えるのか、そして転移学習により本当にモデルの精度は向上するのか、数値シミュレーション...

背景が似ているようであれば、そのようなサンプルも集めておくとよいと思います。

モデル Y=f(X) は、X で Y を説明する必要がありますので、Y を説明するための情報量が X に含まれていないと、そもそもモデルを構築できません。そのため、X の特徴量も多いほうがよいです。もちろん、Y と関係のない特徴量が X にあると、モデルを作るときにはノイズになりますので、Y とぜったい関係ないことがわかっていれば、そのような特徴量は省いたほうがよいです。ただ、ノイズになることを恐れて特徴量を最初から減らすことで、モデルを構築するための情報が失われる可能性があるよりは、ノイズになるかもしれませんが、必要な情報になる可能性があるということで、まずは多くの特徴量を準備しておいた方がよいです。

もちろん、最初のサンプルが少ないほど、特徴量は減らした方がよいのですが、Boruta のように Y と関係のない特徴量を削除してくれる手法もあります。