分子設計・材料設計・プロセス設計において、分子記述子・合成条件・製造条件・評価条件・実験条件・プロセス条件などの特徴量 x と分子・材料・製品の物性・活性・特性などの目的変数 y との間で、データセットを用いて数理モデル y = f(x) を構築し、構築したモデルに x の値を入力することで y の値を予測したり、y が目標値となるような x の値を設計したりします。
データセットがまだないときには、最初に実験・製造する実験条件 x を実験計画法により選択します。
得られた実験条件で合成・製造し、その後 y の値が得られたら、モデルを構築します。モデルを逆解析して y の値が望ましいと考えられる x の値を選択したり、ベイズ最適化では獲得関数の値が大きくなるような x の値を選択したりします。
ここで得られた x の実験条件で実際に材料を合成したり製品を製造したりして、y の値を獲得します。得られたサンプルを用いてデータセットを更新し、モデルを再構築し、次の実験条件 x を選択します。このような実験条件の選択、実験、実験データを用いたモデルの再構築を繰り返すことが、適応的実験計画法です。適応的実験計画法により、少ない実験回数で効率的に y が目標値となるような材料・製品を開発できます。
適応的実験計画法において、データセットが更新されるごとにモデルを構築することになります。モデル構築ごとに、モデル構築手法を改めて最適化するとよいです。例えば、最初の実験条件の範囲では線形手法で予測精度が良好なモデルを構築できたとしても、実験が進み x の範囲が広がったり、異なるメカニズムで物性・活性が発現するような材料となったりしたときに、x と y の間に非線形性が生じることがあります。最初に最適化したモデル構築手法でそのまま適応的実験計画法を進めてしまうと、そのような非線形性に対応できません。
モデル構築手法の最適化において、サンプルが少ないときにはダブルクロスバリデーションも活用するとよいでしょう。
ベイズ最適化を行うときも、ガウス過程回帰モデルを構築するときにカーネル関数を選択する必要があります。上と同じ理由で、データセットが変わると適したカーネル関数が異なる可能性があるため、実験が進みデータセットが更新されるごとに、カーネル関数も最適化しなおすとよいです。
他には、例えば特徴量の重要性の検討やモデルの解釈、特徴量選択を行うときも、実験が進みデータセットが更新されるごとに改めて実施するとよいでしょう。なお、特徴量選択をすると、モデル構築に用いられな x が存在することになりますが、次の実験条件の選択の際には、そのような x もしっかりと値を (乱数などで) 振るようにしましょう。データセットが更新されると、これまで重要とされていなかった x の重要度が上がる可能性がありますが、値が振られていないと重要性の議論ができないためです。
目的変数 y やデータセットごとに、最適なモデル構築手法やカーネル関数や特徴量の組み合わせは変わります。適応的実験計画法を進めるなかでも、データセットが変更されることになりますので、次の実験条件を選ぶときのデータ解析・機械学習では、丁寧にモデル構築手法やカーネル関数や特徴量の組み合わせを最適化するとよいでしょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。