提案手法を数値シミュレーションデータで検証しよう!

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

研究していると、データの前処理や可視化の方法、モデル構築の方法、x の設計方法など、いろいろな手法を提案することがあります。提案手法を開発する時、実際のデータセットに対して提案手法の検証をする前に、数値シミュレーションデータを意図的に生成して、そのデータセットで手法の有効性を検証すると良いでしょう。例えばこちら↓の、一つの提案手法である CVPFI の論文では、

Cross-validated Permutation Feature Importance(CVPFI)~任意の回帰分析手法で、説明変数間の相関関係を考慮しながら安定的に変数重要度(特徴量重要度)を計算する手法[金子研論文]
金子研の論文が Analytical Science Advances に掲載されましたので、ご紹介します。タイトルはCross-validated permutation feature importance considering co...

 

実際の分子や材料のデータセットで検証する前に、従来の PFI から CVPFI によりサンプルが少ない状況でも安定的に特徴量重要度を計算できることを確認するために、意図的にサンプルの少ない数値シミュレーションデータを作成しました。また、x 間に強い相関のある特徴量がある状況でも正しく特徴量重要度を計算できることを確認するために、相関係数の高い x のデータセットを数値シミュレーションで作成しました。

このような数値シミュレーションデータを用いた検証には、3つメリットがあります。

① 提案手法のアルゴリズムの改良につなげられる

提案手法であれば上手く機能すると想定して、意図した数値シミュレーションデータを用いたとしても、自分の想定した通りには機能しない場合があります。なぜ機能しなかったか原因を探り、それに基づいて上手く機能するように提案手法を改良できます。

 

② コードの間違いに気付ける

もちろん、丁寧に確認・検証しながらコードを作成しますが、意図しない結果が得られたら、コードに間違いがある可能性があります。コードのどこまでが意図した結果になっていて、どこから意図しない結果になったか検証することで、コードのバグに気づけることがあります。

 

③ 提案手法のわかりやすい説明になる

学会発表や論文発表の時に、単に提案手法を説明するだけでは分かりにくいこともありますが、数値シミュレーションデータを用いることで、実際、どのようなデータセットの特徴に対して提案手法が機能するか、といった説明も加えることで、提案手法のメリット・デメリットをより明確にでき、分かりやすく説明することもできます。

 

以上のように、提案手法を開発する際は自分で意図的に生成した数値シミュレーションデータを用いて検証しながら進めると良いでしょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました