金子弘昌, 「化学・化学工学のための実践データサイエンス―Pythonによるデータ解析・機械学習―」, 朝倉書店, 2022
朝倉書店: https://www.asakura.co.jp/detail.php?book_code=25047
Amazon: https://www.amazon.co.jp/dp/4254250479
自分の本の紹介で恐縮です。ただ、ケモインフォマティクス、マテリアルズインフォマティクス、プロセスインフォマティクスの分野、すなわちデータ解析や機械学習による分子設計、材料設計、プロセス設計、プロセス管理・制御において、すでにご自身で学びながら実践している方に、本当にオススメする本です。データセットの作成、化学データ・化学工学データの前処理、特徴量選択(変数選択)、データセットの可視化・見える化、クラスタリング、回帰分析とクラス分類、モデルの検証、モデルの適用範囲・ベイズ最適化、モデルの逆解析の発展的な丁寧に説明があります。それぞれ不明点や困りごとがあるときに、解決できる可能性があります。さらに、Python のサンプルプログラムとサンプルデータセットが付属していますので、本の説明にある内容をすぐに実行できます。実際、データ化学工学研究室 (金子研) において、すべての学生に配布しています。
紹介としては、すでに “まえがき”、目次、第1・2章を無料公開していますので、こちらを読んでいただくのがよいと思います。
「化学・化学工学のための実践データサイエンス―Pythonによるデータ解析・機械学習―」 では、データ解析・機械学習に関連する内容として、主に以下のことを学べます。
- 以下の発展内容
- データセットの作成
- 化学データ・化学工学データの前処理
- 特徴量選択(変数選択)
- データセットの可視化・見える化
- クラスタリング
- 回帰分析とクラス分類
- モデルの検証
- モデルの適用範囲・ベイズ最適化
- モデルの逆解析
- 以下の手法
- 遺伝的アルゴリズムに基づく特徴量選択、波長領域の選択、プロセス変数とその時間遅れの選択
- Boruta
- Generative Topographic Mapping (GTM)
- Sparce Generative Topographic Mapping (SGTM)
- アダブースト (Adaptive Boosting, AdaBoost)
- 勾配ブースティング (Gradient Boosting, GB)
- 半教師あり学習 (半教師付き学習)
- 転移学習
- Gaussian Mixture Model (GMM)
- Gaussian Mixture Regression (GMR)
- Variational Bayesian Gaussian Mixture Regression (VBGMR)
- True Gaussian Mixture Regression (TGMR)
- Generative Topographic Mapping Regression (GTMR)
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。