化合物の情報を考慮したベイズ最適化をする際の初期サンプル選択に、クラスタリングを用いたほうがよいことを確認しました！[金子研論文]

金子研の論文が ACS Omega に掲載されましたので、ご紹介します。タイトルは

Initial Sample Selection in Bayesian Optimization for Combinatorial Optimization of Chemical Compounds

です。これは 2023 年 1 月現在、社会人ドクターの森下敏治さんが取り組んだ研究の成果です。

実験と、その結果である実験データを用いた機械学習による次の実験条件の提案を繰り返して、目標の物性値・活性値をもつ材料を効率的に開発するとき、ベイズ最適化が用いられます。

[無料公開] 「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」の “まえがき”、目次の詳細、第１・２章

2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約２年経過した 2023 年 4 月 ...

ベイズ最適化で次の実験条件を効果的に探索するためには、ガウス過程回帰 (Gaussian Process Regression, GPR) モデルを適切なサンプルで構築することが重要です。本研究では特に、まだ実験データがないときに、初期サンプルを作成することに着目しました。

実験前なので、物性や活性といった目的変数 y や、y と実験条件である説明変数 x との関係は、まだわかりません。そのため、x の情報のみを用いて初期サンプルの x の候補を作成する必要があります。一般的には、実験計画法によって、D最適基準が大きくなるように初期サンプルの x の候補を選択します。

[無料公開] 「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」の “まえがき”、目次の詳細、第１・２章

これにより、実験条件同士に相関がないような初期サンプルの x の候補を選択でき、GPR モデルの構築のための初期サンプルの実験データが効率よく得られます。

一方で、x である実験条件に化合物を含むとき、初期サンプルの x の候補を選択することは、化合物の組み合わせを選択することを含みます。そのため x には、化合物の化学構造から計算される分子記述子が含まれます。このような化合物や分子記述子を扱うとき、他の実験条件とは状況が異なります。

まず、他の実験条件とは異なり、x のサンプル候補をどのように選択しても分子記述子には必ず相関関係があります。例えば、RDKit で計算される、分子量と水素原子以外で計算される分子量の間には相関があります。次に、化合物の種類は限られますので、選択される化合物の種類ごとに、サンプルがクラスターを形成します。

そのため、実験条件が類似しないような x の初期サンプルの候補を作成したいとき、各クラスターからまんべんなく選択されることが望ましいですが、D最適基準ではクラスターの情報は考慮されていません。また、x 間に必ず相関関係があるため、相関がなくなることを目指すD最適基準による選択では、適切なサンプルを選択できないと考えられます。

そこで、化合物の種類ごとにクラスターを形成するという特徴を考慮して、クラスター情報に基づいた x の初期サンプル候補の選択方法を提案しました。クラスタリングを行った後に、クラスターごとにD最適基準に基づいて x のサンプル候補を選択します。

論文では、化合物を含む実験条件として、カップリング反応の実験条件の最適化を対象にして、ベイズ最適化を実施しました。クラスタリングを行った後に、各クラスターから x の初期サンプルの候補を選択したところ、ランダムサンプリングによる候補の選択やD最適基準に基づく候補の選択を用いた場合と比較して、少ない実験回数で最適な実験条件に到達できることを確認しました。さらに、ベイズ最適化による実験条件の提案ごとに、実験できる数が小さいときほど、他の手法と比較して実験回数低減の効果が大きく、探索に要する実験回数が小さくなることがわかりました。

適切なクラスタリングとは、クラスターごとに所属するサンプル数が均一であり、y への寄与が大きいと考えられる実験条件でクラスターが形成できる場合のことといえます。ドメイン知識を活用して適切に形成されたクラスターを用いて初期サンプルの候補を決められれば、ベイズ最適化の探索性能をさらに向上させることが可能になります。

興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。

以上です。

質問やコメントなどありましたら、twitter、 facebook、メールなどでご連絡いただけるとうれしいです。