先日、データ化学工学研究室 (金子研究室) の研究内容を一般の方々にわかりやすく伝えることを目的とした動画を作成するため、取材を受けました。動画については後ほど公開されると思いますので、そのときはぜひよろしくお願いいたします。
取材には、化学・化学工学や数学・統計を専門にされていない方、さらにいえば文系出身の方が来られ、そのような方々にケモインフォマティクスやマテリアルズインフォマティクスやプロセスインフォマティクスの話をすることになりました。もちろん、動画をご覧になる方々にもそのような方はいらっしゃいますので、専門ではない方々に伝わるように、取材の方々といろいろとお話させていただきました。
こちらから話をして、それを受けた相手の方のイメージを伝えていただいたり質問いただいたりして、こちらがそれに対して改めて話をして、いうことを繰り返します。すると、ケモインフォマティクスやマテリアルズインフォマティクスやプロセスインフォマティクスの根幹が、明確になってきました。取材の専門家の方々はやはり上手いです。改めて、ケモインフォマティクスやマテリアルズインフォマティクスやプロセスインフォマティクスは、情報系の人ではなく、化学の人や化学工学の人でないとできない領域と考えるようになりました。この辺りを整理しておきます。
一言で結論をいえば、ケモインフォマティクスやマテリアルズインフォマティクスやプロセスインフォマティクスの根幹は、サンプル間の同一性・差異を適切に表現することです。
取材の中でいろいろと話を進めるときに、化学や化学工学のデータで人工知能や機械学習で数式を作ることのイメージをもつために、料理で例えるとどうなりますか?、という質問がありました。
料理のレシピを入力すると、そのレシピで作った結果である料理の味 (甘味・酸味・塩味・苦味・うま味) が出力され、レシピから料理を作る前に料理の結果を予測できるもの、これが人工知能もしくは機械学習で作った数式もしくは数理モデルになります。
これを受けた上での次の質問は、この料理の数式は、もちろんレシピから的確に味を当ててくれるほうが良いと思うのですが、精度良く当てるようにするため、どのような工夫をすることになりますか?、です。
基本的には、料理のレシピをなるべく細かく数字で説明することが、精度を上げることにつながります。私のような料理の専門家でない人が、例えばカレーのレシピを数字で説明するとき、じゃがいもの大きさとか、炒める時間とか、茹でる時間のようなざっくりとした変数・パラメータでしか料理のレシピを表現できません。一方で、料理の専門家であれば料理の良し悪しもしくは味の良し悪しを区別する料理の仕方の違いが、より細かく分かると思いますし、より多くの視点で料理のレシピを見ていると思います。いろいろな材料を入れる順番かもしれませんし、調味料を入れるタイミングかもしれません。そのような、これをすれば料理の結果である味が変わる、といったことを見つけるのが、料理の数式の精度を上げることに繋がります。
化学や化学工学での機械学習や人工知能も、料理における考え方と同じです。ある材料を合成した結果として、材料の物性や活性が得られます。合成条件を変えれば、材料の物性や活性は変わります。物性や活性が変わりうる、合成条件の違い、材料の違いを表現することが、化学や化学工学での機械学習や人工知能のカギになります。材料の実験条件・合成条件・評価条件・製造条件・プロセス条件をはじめとする特徴量を、材料を差別化するためにどのように設計するかが、ケモインフォマティクスやマテリアルズインフォマティクスやプロセスインフォマティクスの根幹になります。もちろん、その差別化は、材料の物性や活性の違いを表現するためのものである必要があります。どの材料とどの材料 (の作り方) が同一で、どの材料とどの材料 (の作り方) に差異があるのか、数字で表現することになります。このように、化学や化学工学の人が機械学習や人工知能をする上で、一番貢献しなければいけないこと材料をどう数値化するかになります。大前提は、数値化する特徴量が似ている材料やプロセスは、予測する対象が似ている、すなわち物性や活性が似ている、ということです。どの材料の実験レシピ・プロセス条件を似ているもしくは似ていないというように表現するか、化学や化学工学で機械学習や人工知能をする人はここに注力しなければならないと考えます。
以上です。
質問やコメントなどありましたら、twitter、 facebook、 メールなどでご連絡いただけるとうれしいです。