人工知能・機械学習の議論の前に、データの図示も駆使してデータを確認しましょう!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

人工知能・機械学習の花形としては、x から y を予測するモデルを構築したり、モデルを解釈して y に対する x の寄与を検討したり、所望の y の値を達成するための x を提案したりすることです。一方で、データを可視化したり確認したりすることも非常に重要です。花形の解析をする前に、データの特徴を把握しておくことで、事前にデータセットの不具合などに気づいたり、起こりうる失敗を把握したり、そして解析結果の解釈につながることもあります。

解析しようとしているデータはどんなデータセットなのか、に答えられるくらい、データセットについて把握しておきましょう。特にヒストグラム等で重要なパラメータの分布については確認しておくと良いでしょう。例えば、どんな分子量を持ったデータセットなのか、元素の種類や組成はそれぞれどんな種類でどんな分布なのか、などです。分布から外れたサンプルの存在に気付くこともあります。

もちろん確認するのは、y を含むデータセットだけでなく、例えば生成した後の分子構造や結晶構造のデータセットに対しても行うことで、モデルの逆解析の際の参考にもなります。

こちらの書籍の第2章をまるまる使って説明したように、

[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第8章の一部
2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍 「化学のための Pythonによるデータ解析・機...

 

データの図示によるデータセットの確認は非常に大事です。もちろん、その後に主成分分析や t-SNE、UMAP などの可視化手法によるデータの可視化も重要ですが、その前にそもそものデータセットを確認するところから始めると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました