金子研の論文が Materials Today Communications に掲載されましたので、ご紹介します。タイトルは
です。
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築します。構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
実験データがまだ存在しない初期段階で、最初の実験条件をどのように選ぶかは極めて重要であり、これまで実験計画法(Design of Experiments, DoE)に基づくD最適基準をはじめとする指標が用いられてきました。しかし、これらの従来の最適基準には問題があります。これらは線形重回帰分析を前提としており、最適基準に従って初期の実験条件の候補を選ぶと、データが探索空間の端や特定の領域に偏って集中する傾向がありました。ガウス過程回帰モデルやディープニューラルネットワークモデルといった非線形の機械学習モデルを構築する場合、データが空間全体にまんべんなく散らばっていることが重要です。実際、D最適基準に基づいて選ばれた偏ったデータでモデルを作ると、決定係数(R2)がマイナスになるなど、予測精度が著しく低くなることが示されました。
この問題を解決するために提案されたのが、新しい基準である「理想分布までの距離(Distance to the Ideal Distribution, DID)」です。DIDは、選択された実験条件の候補の分布が、事前に想定した「理想的な分布(多くの場合は一様分布)」とどれだけ乖離しているかを定量化したものです。具体的な手順としては、大量に生成した仮想的な実験条件の候補と、選択した少数の実験候補点のそれぞれについて x ごとにヒストグラムを作成し、その頻度分布の誤差の平均を計算します。DIDの値が小さいほど、候補点は理想分布に近く、空間全体に均一に分布していると判断されます。
DIDの利点は、従来の空間充填デザインのように多次元空間でのサンプル間距離(ユークリッド距離など)を計算する必要がない点です。変数ごとに独立してヒストグラムを比較するため、「次元の呪い」の影響を受けません。
数値シミュレーションを用いた検証の結果、以下の優位性が確認されました。
- 選択の適切さ: 従来の最適基準(A, D, E, Gなど)は、サンプルが局所的に偏った好ましくない状態であってもスコアが良くなる(最適と判定する)傾向が見られました。対してDIDは、サンプルが空間全体に均一に散らばっている状態を正しく「良好」と評価でき、非線形モデル構築に適した候補選定が可能であることが実証されました。
- 大規模データへの適用: 従来の基準は候補数(xの数)が10万を超えるとメモリ制限などで計算不能になりましたが、DIDは100万規模の候補数であっても高速に計算可能でした。
DIDを用いることで、特にロボット実験や時系列データを含むような変数が膨大になる複雑な実験系において、適切な初期実験条件を決定できるようになります。これにより、実験後の機械学習モデルの予測精度を高め、材料やプロセスの開発効率向上に寄与することが期待されます。
興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。
以上です。
質問やコメントなどありましたら、X、facebook、メールなどでご連絡いただけるとうれしいです。
