Datachemical LABで解ける実践的な課題

Datachemical LAB をご利用いただき、皆様どうもありがとうございます。

データケミカル株式会社は、化学・工学分野での実験・製造データ解析専門のAI・機械学習クラウドサービス「Datachemical LAB（データケミカルラボ）」を提供しております。

分子設計・材料設計・プロセス設計におけるいろいろな問題・課題に対して、ご活用いただいているようで開発者としてとても嬉しい限りです。ご質問やご要望もいただいており、逐次 Datachemical LAB の改善も行なっております。いろいろとご意見いただきありがとうございます。

自社における実際の分子設計・材料設計・プロセス設計への使用を目的とした活用だけでなく、教育目的として利用される企業もおられます。Datachemical LABにより、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスの実用的かつ実践的なデータ解析・機械学習を学ぶことができるため、とても合理的であると私も思っています。ぜひ教育目的としての Datachemical LAB の利用も進み、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスを学んだ方々が、化学や化学工学に関連する研究・開発する企業に派遣され、データ解析・機械学習で活躍する姿を想像すると、とても嬉しく思います。

せっかく教育目的で利用される方もいらっしゃいますので、Datachemical LAB で効果的に化学・化学工学分野のデータ解析・機械学習を学ぶための、実践的な練習課題とその模範解答を作成しているところです。模範解答は、私が Datachemical LAB を用いて説明・解説をしながら課題を解く動画になります。今月 (2022年8月) 中には、ご利用いただいている皆様にお届けできると思いますので、ぜひお楽しみにお待ちくださいませ。

練習課題としては、ざっくりと以下のような内容にする予定です。

仮想サンプルを 60000 万個生成し、csv ファイルとして保存せよ。(実際の練習課題では、生成する特徴量ごとの制約や条件を設定する)
生成した仮想サンプルから、最初に実験すべき 30 サンプルを選択せよ。また、最初に実験すべき 10 サンプルも選択せよ。
合成条件と実験結果のデータセットを読み込み、各特徴量の平均値・分散・標準偏差・最小値・第１四分位数・中央値・第３四分位数・最大値を求め、csv ファイルとして保存せよ。
合成条件と実験結果のデータセットを読み込み、オートスケーリングを行った後に保存せよ。その後、適切にオートスケーリングされているか確認し、さらに特徴量ごとのデータ分布を確認せよ。
データセットを読み込み、カテゴリーの特徴量をダミー変数化せよ。
合成条件と実験結果のデータセットを読み込み、実験結果の特徴量間の関係を調べよ。その後、合成条件と実験結果の特徴量の間の相関関係について調査し、さらに実験結果の特徴量の値を大きくするためには他の特徴量をどのように変化させればよいか考えよ。
合成条件と実験結果のデータセットにおいて、実験結果を合成条件から予測する回帰モデルを構築することを考える。新たなサンプルにおける実験結果を精度良く予測することを考えたときに、適切な回帰分析手法を選択せよ。
合成条件と実験結果のデータセットにおいて、実験結果を合成条件から予測する回帰モデルを解釈することを考える。すべてのサンプルで構築されたモデルの変数重要度を確認せよ。
合成条件と実験結果のデータセットにおいて、実験結果を他の特徴量から予測する回帰モデルを用いて、新たな合成条件を設計することを考える。(実際の練習課題では、実験結果の目標を設定し、また合成条件の制約も設定しておく。) モデルの適用範囲 (AD) を k 近傍法で設定するとき、次に実験すべき合成条件を提案せよ。
合成条件と実験結果のデータセットにおいて、ベイズ最適化により新たな合成条件を設計することを考える。(実際の練習課題では、実験結果の目標を設定し、また合成条件の制約も設定しておく。) 次に実験すべき合成条件を提案せよ。
化合物ごとの物性が測定されたデータセットを読み込み、分子記述子を計算せよ。さらに、物性を追加して回帰分析を行うためのデータセットを作成せよ。得られるデータセットを A とする。
A のデータセットを用いて、同じ値のサンプル数が大きい特徴量と、高い相関を持つ特徴量ペアの一方を削除せよ。ただし、トレーニングデータ割合を 75% とし、ランダムに選択せよ。削除した後のデータセットを B とする。
B のデータセットを用いて、PCA で低次元化して主成分を計算せよ。さらに、主成分と物性の間の相関係数や、第一主成分と物性の間の散布図を確認せよ。
B のデータセットを用いて、物性を分子記述子から予測する回帰モデルを構築することを考える。新たなサンプルにおける物性を精度良く予測することを考えたときに、適切な回帰分析手法を選択せよ。
B のデータセットを用いて、物性を分子記述子から予測する回帰モデルを解釈することを考える。すべてのサンプルで構築されたモデルの変数重要度を確認せよ。
化合物ごとの物性が測定されたデータセットに基づいて、自由結合手が任意の数のフラグメントと、自由結合手が 1 つのフラグメントを生成せよ。その後、生成したフラグメントに基づいて構造生成をせよ。生成した後に、分子記述子を計算せよ。ここで得られたデータセットを C とする。
B のデータセットで構築した、記述子から物性を予測する回帰モデルを用いて、新たな分子構造を設計することを考える。(実際の練習課題では、物性の目標を設定しておく) C の物性を予測し、次に合成すべき分子構造を提案せよ。ただし、モデルの適用範囲 (AD) を k 近傍法で設定する。
B のデータセットにおいて、ベイズ最適化により新たな分子構造を設計することを考える。(実際の練習課題では、物性の目標を設定しておく) 次に合成すべき分子構造を提案せよ。