「やりたいこと」と「できること」をつなぐデータ解析・機械学習(AI・人工知能)

分子設計・材料設計・プロセス設計・プロセス管理において、これまでに蓄積されたデータを収集・整理して、分子記述子・合成条件や製造条件・プロセス条件・プロセス変数 x と分子や材料の物性・活性・特性や製品品質 y との間で数理モデル y = f(x) を構築し、x を入力して y を予測したり、y が望ましい値になるような x を設計したりします。

以上のようにシンプルに、y を予測できたり x を設計できたりすればよいのですが、中には複雑な状況も存在し、どのような x にしたらよいのか、どのようにモデルを構築したらよいのか分からないこともあります。そもそも、データ解析・機械学習や人工知能ではデータセットに基づいて x と y の間の関係を求めることが前提ですが、望ましいのは理論的に x から y を予測したり、y から x を設計したりする、すなわち数式で表現することです。

理論的に分子設計・材料設計・プロセス設計・プロセス管理の目的を達成できるのであれば、データ解析・機械学習はいりません。

なぜデータ解析・機械学習をする必要があるかというと、やりたいこと (目的) とできること (理論) をつなぐためです。

理論的な背景や、これまでの知識・知見だけでは x と y を結びつけることができなかったり、y を予測できなかったりするときに、データ解析・機械学習が力を発揮します。理論的に形式化・数式化できることはそのように表現し、できないところから目的・目標に繋がるまでをデータ解析・機械学習が補うという位置づけです。もちろんデータ解析・機械学習で、どんな場合でも x と y の間をつなげられる、モデル化できるわけではありません。特に、化学・化学工学を含むサイエンスの分野のデータ解析・機械学習では、背景として何もない場合よりも、人の経験や感性、ときには勘によって、「できるはずだ」 があるときに、データ解析・機械学習の成功率、すなわち x と y を的確にモデル化できる確率はグッと上がります。もちろん、経験・感性・勘があればすべてうまくいくわけでなく、サンプルが不足していたり、データのノイズや多様性の問題などうまくいかないこともあります。ただ多くの場合で成功します。

目的と理論の間、やりたいこととできることの間の道筋は一つではありませんし、すべての道筋が上手くいくわけではありません。その辺りの適切な道筋を見つけたり、効果的に試行錯誤したりしながらできることとやりたいことを結びつけるのも、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスの研究者の役割の一つと思います。

データ解析・機械学習をするとき、以上のことを頭の片隅に入れておくと、やりたいことを達成しやすくなると考えます。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました