ドメイン知識を考慮した特徴量エンジニアリングの設計をしました![金子研論文]

金子研の研究成果の論文が Results in Chemistry に掲載されましたので、ご紹介します。タイトルは

 

Benchmarking automated feature engineering in oxidative coupling of methane and the impact of domain knowledge

 

です。これは専門研究員の真木純さんが取り組んだ研究の成果です。

マテリアルズインフォマティクス・プロセスインフォマティクスにおける特徴量エンジニアリング(feature engineering)の効率化を目的として、メタン酸化カップリング(Oxidative Coupling of Methane, OCM)反応データを対象に、自動・半自動の特徴量設計ライブラリとドメイン知識に基づく手法の比較を行いました。

材料開発では、膨大な組み合わせから有効な材料を探索する必要があり、実験のみに依存する従来手法は非効率的です。そのため、機械学習を活用した実験計画法や機械学習モデルの逆解析が注目されていますが、モデル精度や解釈性を高めるためには適切な特徴量設計が欠かせません。しかし、既存ライブラリの性能比較は十分に行われておらず、特徴量生成には最適解が存在しないのが現状です。そこで本研究では、TPOT、autofeat、Feature-engine、xfeat の4種類のライブラリを用い、OCM反応データに対する特徴量生成・選択の効果を検証しました。

実験には北海道大学の触媒データベース(CADS)から取得した384サンプルを使用し、C2収率を目的変数としました。回帰モデルとしては線形回帰、リッジ回帰、ランダムフォレスト、ガウス過程回帰、勾配ブースティングなどを用い、r2やRMSEで性能を評価しました。その結果、TPOTは処理の自動化が多すぎるため逆解析には不向きであり、autofeatは過学習傾向が見られました。一方、Feature-engineとxfeatは不要な特徴量を削減できましたが、効率性ではBorutaに劣り、特にFeature-engineが最も少数の有効特徴を抽出しました。さらに、Xenonpyによる物理化学的特徴量を導入した場合、xfeatは性能が低下しましたが、BorutaやFeature-engineは有効な選択を実現しました。

また、ドメイン知識に基づき、金属上への炭素吸着エネルギーを特徴量として導入すると、モデル性能が大幅に向上しました。特に、ライブラリで選択された特徴量に炭素吸着エネルギーを追加した場合、従来研究の予測精度を大きく上回りました。特徴量重要度解析の結果、反応温度の寄与が最も大きく、NaやMnなどの特定元素およびその交差項、さらに炭素吸着エネルギーの寄与が高いことが示されました。これは、OCM反応機構においてメタンや酸素の吸着と反応に適した金属種が鍵であることを裏付けています。

以上より、既存ライブラリは特徴量選択に有用ですが、特徴量生成能力は限定的であり、ドメイン知識を活用した特徴量生成と組み合わせることで初めて高性能なモデルが得られることが分かりました。本研究は、特徴量設計における自動化と人間の知識活用の役割を明確にし、触媒設計や反応予測の効率化に重要な指針を提供するものです。

興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました