データ解析・機械学習する時はなるべく多くのデータを集めよう!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデル y = f(x) を構築するとき、基本的には x と y の揃ったサンプルを収集します。これらのサンプルを用いることでモデルを構築できます。一方で、このモデルの構築に直接は使用できないかもしれませんが、x だけのデータや x に関連するその他のデータも集めておくと役に立ちます。

例えば、x のみのサンプルを活用することで半教師あり学習をすることができ、モデルの予測精度が向上する可能性があります。

半教師あり学習 (半教師付き学習) の4つのメリット (回帰分析・クラス分類)
機械学習の手法、統計的・情報学的手法の中には、教師なし学習や教師あり学習があります。教師なし学習では、変数を使ってサンプル群を可視化(見える化)したり、クラスター解析(クラスタリング)したりします。教師あり学習では、物性・活性などの目的変数...
回帰分析における半教師あり学習 (半教師付き学習) のメリットを確認しました!
以前に、半教師あり学習 (半教師付き学習) における4つのメリットについて書きましたが、その中で回帰分析におけるメリットを議論して、それをQSAR解析・QSPR 解析で確認した論文が、掲載されましたのでご紹介致します。金子研オンラインサロン...

 

x や y 以外のパラメータを収集することもあります。例えば、金属有機構造体を対象にして、x が構成要素、y が気体の吸着特性である時、それらとは別の金属有機構造体の結晶構造パラメータを準備しました。

金属有機構造体のモデル化に成功しました![金子研論文]
金子研の論文が Journal of Chemical Information and Modeling に掲載されましたので、ご紹介します。タイトルはCorrelation between the Metal and Organic Co...

 

これにより吸着特性データが少なくても、構成要素と結晶構造の揃ったサンプルは多くあるため、モデルを2つに分けて、片方は多くのサンプルでモデル構築するといった工夫をすることで、構成要素から結晶構造を介して吸着特性を予測できます。このように多様なデータを集めることで、y の少ないデータを補うことができます。

別の観点として、実験データだけでなくシミュレーションデータを集めることでも、モデルの予測精度向上や x の設計にそのデータを活用できます。シミュレーションデータが x になることで、上の半教師あり学習のためのデータを、実験なしにシミュレーションのみで大量に収集できたり、シミュレーションで得られるパラメータを用いて、より多くのサンプルでモデル構築が可能になったりします。

分子・材料設計の時に、分子シミュレーションの結果が良くなるように、プロセス設計の時にプロセスシミュレーションの結果が良くなるように、例えばベイズ最適化や直接的逆解析でサイクルを回しつつ、各シミュレーションのデータと実験データと合わせて、同様にベイズ最適化や直接的逆解析でサイクルを回すことで、シミュレーションと実験を融合して効率的に分子・材料・プロセスの設計ができます。

データ解析・機械学習でモデルを構築したり、モデルを用いて分子・材料・プロセスを設計する際は、多くの多様なデータをなるべく多く収集・準備すると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました