データ解析・機械学習によって分子設計・材料設計・プロセス設計などを効率化する試みがあります。例えば、目的変数 (物性・活性・製品品質など) y と説明変数 (実験条件・合成条件・プロセス条件など) x との間で、既存のデータセットに基づいて数理モデル y = f(x) を構築し、(大量の) x のサンプルをモデルに入力して y の値を予測し (場合によってはベイズ最適化の獲得関数の値を計算し)、結果が良好な x のサンプルを選択します。
モデルを構築できたり、大量のサンプルを生成できたりすると嬉しいもので、データ解析・機械学習のより細かいところ、より深いところをやりたくなることもあるかと思います (気持ちはとてもわかります)。また逆に、モデルを構築できたり、大量のサンプルを生成できたりしただけで満足することもあるかもしれません。しかし、データ解析・機械学習は一つの手法・手段であり、目的はあくまで分子設計・材料設計・プロセス設計です。目標の物性や活性の値をもつ分子や材料を設計したり、その分子や材料を合成するプロセスを設計したりすることです。そのため、例えば次の実験条件や合成条件やプロセス条件を決めたり、分子の化学構造を決めたりすることが目的であったりします。それを求めるための手法・手法の一つが、データ解析・機械学習という位置づけです。
データ解析や機械学習ができた、モデルを構築できたり、大量のサンプルを生成できたりしたからといってゴールではありません。あくまで一歩目であり、まだ何も達成していません。また、設計できないような x、例えば実験中・合成中に成り行きで得られるようなパラメータを使っていたら、材料設計やプロセス設計を目的としたときは、データ解析や機械学習をしてもまったく意味がありません。このあたりは注意しましょう。
逆に、すべてをデータ解析・機械学習で行わなくても別に構いません。例えば、化学的・物理的な背景や理論に基づいて数理モデルを構築したり、実験科学者や現場の方の知識・知見・経験・感性・勘などで実験条件や合成条件やプロセス条件を設定したりしてもよいわけです。また、データ解析や機械学習によって実験条件・合成条件・プロセス条件が提案されたれた後に、それらの条件の値を変更しても問題ありません。このように実験科学者や現場の方の知識・知見・経験・感性・勘なども考慮して問題ありません。もちろんデータ解析・機械学習によって化学構造が提案された後に、合成者の知識・知見・経験・感性・勘などに基づいて、構造を変化させることもあってよいと思います。あくまで目的は分子設計・材料設計・プロセス設計であり、データ解析や機械学習は手法・手段の一つです。
データ解析や機械学習をすること自体を目的化せず、何のためにデータ解析・機械学習をするか、何が問題なのかを問い続けながら、データ解析や機械学習を進めるとよいと思います。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。