分子設計・材料設計・プロセス設計・プロセス管理において、データ解析・機械学習をすることが一般的になってきました。ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスという言葉も色々な場面で使われています。企業の中に、データ・AI・MI・インフォマティクス・デジタルといった単語を含む研究所名や部署名も増えてきました。実際、大学・企業・研究所などの多くの方々から、データ解析・機械学習に関する金子への相談はたくさんあります。
データ解析・機械学習を実施する多くの方はプログラミング言語として Python を利用していますが、一方でプログラミングが苦手でありデータ解析・機械学習の利用が進まない方もいらっしゃるかもしれません。そのような方でも、データケミカル株式会社が提供しているデータ解析・機械学習のクラウドサービス「Datachemical LAB」
を利用することで、プログラミングなしでデータ解析・機械学習による分子設計・分子設計・材料設計・プロセス設計・プロセス管理が可能になっており、データ解析・機械学習の利活用が加速的に進んでいます。
データ解析・機械学習を実施するためには、一般的にはプログラミング言語として Python を学んだり、データ解析・機械学習で失敗しないための勉強をしたりするために多くの時間をかける必要がありましたが、Datachemical LAB の出現により、Python の勉強が不要になっただけでなく、データ解析・機械学習で失敗しないやり方で安心してできるようになりました。そして、Datachemical LAB によりデータ解析・機械学習の律速 (ボトルネック) が変わり、研究者やエンジニアが実験や製造に集中できるようになりました。
では、Datachemical LAB を使用することを前提にしたとき、つまりプログラミングが不要だったり、データ解析・機械学習を失敗しないためにかける時間が不要になったりした中で、他のどんなことに時間をかければ、例えば予測精度が高いモデルを構築できたり、適切な分子設計・材料設計・プロセス設計ができるのでしょうか。データ解析や機械学習の観点からは何を学べばよいのでしょうか。
結論からいえば、特徴量の設計やサンプルの設計、もしくは特徴量エンジニアリングやサンプル変換です。
分子記述子・合成条件・製造条件・プロセス条件・プロセス変数 x と分子・材料の物性・活性・特性や製品品質 y との間で数理モデル y = f(x) を構築するとき、モデルの予測精度を向上させるためには x を適切に設計することが非常に重要です。もちろん、データ解析・機械学習の手法や技術によって、ある程度は自動的に x を設計したり選択したりできるようになりました。Datachemical LAB でもそのような機能があります。
ただ、自動的にできるのはあくまで一般的な x の設計や選択であり、その分子やその材料やその製品に特化した x というのは必ず存在します。その分子・材料・製品にかかわってきた時間が長ければ長いほど、そのような x を開発したり提案したりできるようになります。研究者やエンジニアの方は、データ解析・機械学習の観点から、そして実験したり製造したりする立場の観点から、y を説明する上で重要な x は何か考え、設計したり開発したりすることで、そのデータセットを Datachemical LAB に投げて予測精度を向上させることができます。
予測精度の高いモデルを構築したあとは、モデルを用いて新たな分子や合成条件・製造条件やプロセス条件を設計することになります。y の目標値を達成するような x を探索するわけですが、もちろん Datachemical LAB には仮想的なサンプルを生成して、y が望ましい値となる x を選択したり、ベイズ最適化で x を設計したりする機能はあります。
ただ、その研究や開発、その実験系や製造現場にしっかりと合った仮想的サンプルを効率的に生成することで、さらに無駄を省くことができ、結果的に y が良好な値となる設計ができます。例えば、x に制約を設定したり、プロセス条件を設定したり、サンプルを生成する観点から特徴量を設計したりすることで、より効率的に Datachemical LAB を使用することができ、効果的に新たなサンプルを設計できるようになります。
このような特徴量設計やサンプル設計について、もちろんデータ解析・機械学習に関連する内容ではありますが、一方で研究者・エンジニアの知識・知見・感性・勘を存分に発揮できる分野でもあります。Datachemical LAB の出現によって、データ解析・機械学習に特化した勉強や技術の習得より、該当する分子設計・材料設計・プロセス設計に関連する研究・開発や実験系や製造現場に寄った分野での学びや経験、創意工夫が重要になってきました。特に特徴量設計やサンプル設計については、もちろんある程度のデータ解析・機械学習の知識・知見は必要ですが、それよりも対象とする研究分野・実験系・製造現場での知識・知見・感性・経験の方が重要です。また、必要に応じて別の研究者や開発者とのコミュニケーションも必要になります。
Datachemical LAB の出現により、Python プログラミングやいろいろなデータ解析・機械学習の手法の細かなアルゴリズムより、以上の特徴量設計やサンプル設計に注力することが、データ解析・機械学習をする方々に求められるようになったといえるでしょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。