分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
迷っている方、とりあえずデータ解析・機械学習をやってみて、ご自身のデータセットでモデルを構築し、予測をしてみましょう!データ解析・機械学習の大きなメリットの一つは、とても便利な Python や、プログラミングが苦手な方でも多様なソフトウェアが利用できるため、ある程度の知識とパソコンがあれば、気軽にデータ解析・機械学習を実施できることです。これは実験と比べると大きな違いであり、実験のように実験装置や器具、試薬等を準備する必要なく、実施可能です。このメリットを活用しない手はありません。
もちろん、理想的には、パーフェクトな x と y、そしてデータセットを準備して、x と y の間で一度だけデータ解析・機械学習して、モデルを構築することが望ましいです。しかし、最初からこのような完璧な x と y、そしてデータセットを準備するのは難しいですし、データ解析・機械学習を実施することで x や y の適切性を検討できるようになることもあります。データ解析・機械学習を通じて、もしくは使用する x や y が後で考えれば不適切だったとしても、器具を壊すわけでもなければ試薬を消費するわけでもなく、何も問題ありません。そのため、まずはデータ解析・機械学習を実施してみて、その結果を踏まえて、次の検討をすることが重要と思います。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。