学習データにない未知の元素を含む触媒(外挿)でも機械学習モデルによる予測を可能にし、その予測精度を正しく評価する新手法EGISVを開発しました![金子研論文]

金子研の研究成果の論文が Journal of Chemical Information and Modeling に掲載されましたので、ご紹介します。タイトルは

 

Adsorption Energy Prediction Model for CO2 Reduction on Electrocatalysts Containing Previously Unencountered Metal Elements

 

です。これは大西一颯さんが学部四年生のときに取り組んだ研究の成果です。

本研究は、電気化学的二酸化炭素還元(CO2RR)反応において、学習データに含まれない「未知の金属元素」 (外挿) を含む触媒表面の吸着エネルギーを高精度に予測できる機械学習モデルの開発、およびその汎化性能を評価する新しい手法を提案したものです。Zero-shot Learning (ゼロショット学習) と呼ばれることもあります。従来の機械学習による触媒探索は、既存のデータベースに含まれる元素の範囲に限定されるという課題がありましたが、本手法によりその探索空間を大幅に拡張し、未探索の触媒候補を発見することが期待されます。

本研究の核心は、モデルの未知元素に対する予測能力を定量的に評価するために考案された「元素グループ化反復分割検証(EGISV)」です。従来のランダムなデータ分割(トレーニングデータ・テストデータ分割やダブルクロスバリデーションなど)とは異なり、特定の元素を含む構造データを学習セットから完全に除外し、その除外した元素を含む構造に対して予測テストを行います。これにより、実質的に「未知の元素」に遭遇した際のモデルのパフォーマンスをシミュレーションすることが可能になりました。

EGISVの予測精度の向上のため、説明変数(記述子)の設計において大幅な改良が行われました。従来のpymatgen由来の単純な原子特性に加え、XenonPyを用いた多次元的な統計的原子特性、軌道充填数と電気陰性度を組み合わせた交差項、吸着角や結合距離といった幾何学的・構造的特徴量、さらには混合エントロピーなどを導入しました。また、Borutaアルゴリズムを用いて重要な特徴量のみを選別し、モデルの効率化を図っています。

Mokらによって構築された*CO、*H、*OHの吸着エネルギーデータベースを用いた検証の結果、提案された記述子セットは従来の記述子よりも高い予測精度を示しました 。

  • CO吸着: 幾何学的構造の特徴量が極めて有効に機能し、大幅な精度向上が確認されました。
  • H吸着: 局所的な電子状態に強く依存するため、幾何学的特徴の効果は限定的であり、汎化が比較的困難であることが示されました 。
  • OH吸着: 幾何学的要因と電子的要因の両方の影響を受ける傾向が見られました 。

また、SHAP解析により、新たに導入された電子・構造記述子がモデルの予測決定に大きく寄与していることが可視化され、記述子設計の有効性が裏付けられました。

EGISVによる評価では、補間的な予測を行う従来法に比べて予測誤差が増加する傾向が見られましたが、これは未知元素に対する予測の難易度(トレードオフ)を適正に反映した現実的な評価であると言えます。本研究で構築されたフレームワークは、既存データベースの元素範囲を超えた新規合金や複雑な組成を持つ高機能触媒の発見を加速させるための重要な基盤となると考えられます。

興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました