データ解析・機械学習の始めから研究を進めるまでの道標

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

データ解析・機械学習の理屈は分かっていても、目の前にあるデータセットを解析・機械学習できなければ、所詮は絵に描いた餅にすぎません。では、どのようにして、データ解析・機械学習を始め、高度化し、さらにはデータ解析・機械学習の研究ができるようするのか、流れを以下に示します。

 

 

1. 本に書かれた内容とまったく同じことを実施する

例えば以下の本には、データ解析・機械学習における各手法の説明はもちろんのこと、すぐに実行できる実際の Python プログラムがあり、Python のインストールの仕方から実行方法まで載っています。

[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第8章の一部
2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍 「化学のための Pythonによるデータ解析・機...
[無料公開] 「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」 の “まえがき”、目次の詳細、第1・2章
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ...

 

まずは、これらの本の通りに、データ解析・機械学習をしてデータセットからモデルを構築したり、モデルを用いて予測をしたりする体験・経験をしましょう。まったく同じことをするだけでよいのか?、と考える方もいるかもしれません。ただ本と同じことをするとはいえ、実施する内容は、これまでの研究成果が整理された、データ解析・機械学習としてスタンダートな方法です。何度も繰り返された洗礼された内容であり、誰もが通るべき道といえます。

また、基本をおろそかにすると、例えばデータ解析・機械学習により誤って嘘をついてしまうなど、間違えた結論を導いてしまう危険があります。まずは標準的な方法でデータ解析・機械学習の基礎を学びつつ、慣れることになります。

ちなみに、データ解析・機械学習と一緒に Python プロペラミングを 1 から学びたい方は、こちらの本がオススメです。

[無料公開] 「Pythonで気軽に化学・化学工学」 の “まえがき”、目次の詳細、第1・2・3章
2021 年 5 月 1 日に、金子弘昌著の「Pythonで気軽に化学・化学工学」が出版されました。丸善: Amazon: Amazon(Kindle): こちらの本は、前著の 「化学のための Pythonによるデータ解析・機械学習入門」 ...

 

また、そもそも Python プログラミングをなしに、本と同じ内容を実施したい方は Datachemical LAB をご検討ください。

化学・化学工学分野におけるデータ解析・機械学習クラウドサービス「Datachemical LAB」
化学・化学工学分野におけるデータ解析・機械学習が、プログラミングなしでできるクラウドサービス「Datachemical LAB」を開発し、提供を開始しましたので、ご案内します。プレスリリースは以下をご覧ください。Datachemical L...

 

2. 最新の学術論文の内容とまったく同じことを実施する

上のような本に書かれた内容は標準的なデータ解析・機械学習である一方で、最新の論文には、もちろん本の内容を踏まえた上での、最新の研究成果が載っています。ただ、もちろん本に書かれていたデータ解析・機械学習で十分な成果を上げることができれば問題ありません。もし、本に書かれていたデータ解析・機械学習で不十分であったときは、ご自身のデータセットと同じようなデータセットを扱う論文や新たな手法を提案している論文を探し、その論文の内容とまったく同じように実施しましょう。論文には基本的に、論文に記載されている内容を再現できる条件は載せなければなりません。同じ条件で実施することにより、最新の研究成果に基づいて自分のデータセットを解析できます。

 

3. 新たな手法を研究・開発する

最新の論文の手法を用いても解決できない問題・課題があるときは、新たな手法を開発する必要があります。このように、データ解析・機械学習における新たな手法を開発するのが、この道の研究者です。1. の本における標準的な手法や、2. の論文で学んだ最新の方法と比較しながら、自分の手法を提案・開発したり、その手法の優位性を検証したりしましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました