データセットを扱うときはサンプル一つ一つに気を配ることが重要です！

分子設計・材料設計・プロセス設計において、分子記述子・実験条件・合成条件・評価条件・プロセス条件などの特徴量 x と分子や材料の物性・活性・特性などの目的変数 y との間で、データセットを用いて数理モデル y = f(x) を構築します。構築されたモデルを解釈したり、モデルを用いて y の予測や x の設計をしたりするとき、重要なことは、データセットにおける特徴量 x とサンプルです。x で表されたサンプルを集めたものがデータセットになります。

データ解析者、機械学習をする人が用いるのはデータセットですが、それはサンプルが集合したものです。データの可視化やクラスタリング、回帰分析やクラス分類をするとき、サンプル全体をデータセットとして使用することになりますが、解析の結果を解釈したり、予測結果を評価したりするときは、サンプル一つ一つと向き合うことになります。

実際に解析をする前にも、用いるサンプルを一つ一つ見つめ直し、どのようなバックグラウンドで合成されたり評価されたりしたサンプルなのか、考え直すことが重要です。x の設計にも繋がりますし、モデルを複数に分けるという発想にも繋がります。

特徴量として実測値ではなく推定値を用いたほうがモデルの予測精度が高くなるときってありますよね

分子設計・材料設計・プロセス設計において、分子・材料・プロセスの特徴量と x と分子や材料の物性・活性・特性 y との間で、データセットを用いて数理モデル y = f(x) を構築して、モデルを用いて x の値から y の値を予測したり、y...

Python のコードや便利なアプリがあると、データセットを全部丸投げして、ガラガラポンで解析結果や評価結果が出るようなこともあります。もちろんデータ解析や機械学習の効率化という点で、そういったことはまったく問題ありませんが、一方で、データセットの中には誰かが合成したり評価したりしたサンプル一つ一つがあるわけで、それらを丁寧に見直すことで、データ解析・機械学習の新たな方針につながることもあります。モデルを構築できなかったり、予測精度が上がらなかったり、結果の解釈に違和感を感じたりするときには、データセット全体を眺めるのではなく、サンプル一つ一つの背景や特徴を丁寧に調べなおすと持っていくと良いと思います。

多くの場合で、データセットにあるデータすべてを一人で合成・分析・解析・評価するわけではありません。関係者と協力してサンプル一つ一つを議論することで、問題の解決に繋がるかもしれません。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。