分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスにおいては、実験データや製造データ、プロセスデータを用いることになりますので、サンプル数は小さいことが多いです。膨大なサンプルがあれば、とりあえずディープニューラルネットワークなどの複雑な手法を試せば、それなりの結果は得られますが、サンプル数が小さいときは、そう簡単にはいきません。
化学や化学工学の分野では、一般的な画像・音楽・文章などと同じように、必要なデータが大量かつ手軽に入手できるわけではありません。基本的に少数の実験データをもとにしてデータ解析・機械学習をする必要があります。データ数が小さい場合、大量のデータを扱う場合より注意深くデータ解析・機械学習をしなければ、一見正しそうでも誤った結論を導いてしまい、データから嘘をつくことになってしまいます。より慎重な対応が求められます。小さなデータセットには大きな問題があるわけです。
そして、データに嘘をつかないようにデータ解析・機械学習をする必要があります。
ただ、サンプル数が小さいときのデータ解析・機械学習には、小さな、もしくは大きな落とし穴が潜んでおり、データ解析・機械学習の初学者が、そして中級者でも、陥ってしまうことが多いです。Datachemical LAB には、初学者・中級者でもデータに嘘をつかないような機能が、各所に搭載されています。
Datachemical LAB はそもそもデータに嘘をつけないような仕組みになっています。そのため、現実とかけ離れた、一見 素晴らしく見えるが嘘の結果は出てきませんし、次の実験を設計したり、プロセスを運転したりするときに、実際やってみたら全然違った、といったような信頼をなくすような結果は出ないことになります。
そして、Datachemical LAB の各機能を使いながら、サンプル数が小さいデータセットではどのように注意しなければならないのか、学ぶことも想定しています。
初学者から中級者へ、そして上級者へ成長していきます。ぜひ、Datachemical LABを用いて分子設計・材料設計・プロセス設計・プロセス管理を実施することはもちろんのこと、データサイエンスやデータ解析・機械学習の知識・知見・技術も培っていただければと考えています。
以上です。
質問やコメントなどありましたら、twitter、 facebook、 メールなどでご連絡いただけるとうれしいです。