データ解析・機械学習が得意な方が、扱うデータセットにおける実験系の実験科学者と共同で研究やプロジェクトを進めたり、実験科学者がデータ解析・機械学習を勉強してデータサイエンティストになったりすることがあります。このような場合のメリットについてお話します。
一つはデータの収集や選択に関してです。実験室、研究室、研究所では様々な実験が行われていると思います。それらの実験内容や実験結果のなかで、どの結果・データを用いてモデルを構築するかは、サンプル数を多くすることはもちろんのこと、説明変数 x と目的変数 y との間の関係が一貫しているかどうかを基準に考えます。そのとき、やはり対象の実験系に詳しいほうが、適切にデータを収集・選択できます。もちろん各自の実験データだけでなく他の論文データ・文献データを用いてデータセットを拡充することもありますが、論文や文献から得られたデータを一緒に解析してよいのか、転移学習した方がよいのか、
使わない方がよいのか、といった判断も実験科学者と一緒に議論すると良いと思います。
続いて特徴量の設計です。いろいろなデータ解析・機械学習の手法により、x と y の間の関係をモデル化できますが、内挿の予測と外挿の予測を含めてモデルの予測精度を向上させるためには、適切に特徴量 x を設計する必要があります。上のデータの収集や選択にも関係しますが、x で y を説明するために、どのような x を開発すればよいのかは、やはり対象とする実験系の実験科学者が得意であり、そのような方々と議論するとよいと思います。
モデル構築した後の、結果の評価に関して、データ解析や機械学習の手法をいろいろと変えたり、開発した特徴量を使ったり使わなかったりしたときに、異なるモデルが構築されます、回帰分析における例えば r2 とか RMSE, MAE などや、クラス分類における正解率, 検出率、精度、AUC などでは評価できない、より詳細なモデルの検証については、実験科学者と一緒にやるとよいと思います。例えば y の実測値 vs. 推定値プロットを見て、どの辺りの予測誤差が大きい・小さいとか、混同行列においてどの数値を重視する必要があるとかは、その実験系での材料開発やプロセス開発における目的、実験系の特性によります。実験科学者と一緒に議論するとよいでしょう。
最後に結果の解釈について、例えばモデル構築のときに ある程度の信頼性をもって得られるのは、各特徴量の重要度や、あるサンプル周りで特徴量が y に対してどのような寄与をもつか、といった情報までです。その情報を対象の実験系における分子・材料・プロセスの物性・活性の発現メカニズムまで考えようとするとき、その実験系・プロセスの知識・知見が必要です。その実験系が得意な実験科学者と議論するとよいです。
以上が、データサイエンティストと実験科学者が協働することや、実験科学者がデータサイエンティストになることのメリットです。ぜひご検討いただければと思います。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。