最初に申し上げることとして、今回はあくまでタグチメソッドにおける実験計画法の話であり、タグチメソッド全体のお話しをするわけではありません。そもそもタグチメソッドは、以下のようなキーワード等をもつ、とても広い概念です。
- 品質工学
- 実験計画法 (直交表)
- SN比損失関数
- パラメータ設計
- ロバスト設計
- コストダウン
講演会やセミナーで、ベイズ最適化や適応的実験計画法による分子設計・材料設計・プロセス設計などの話をすると、
多くの方から、タグチメソッドとどう違うの?、タグチメソッドとどっちがいいの?、といった質問をいただきます。そもそも、ベイズ最適化をはじめとする適応的実験計画法は、タグチメソッドとは異なる概念です。ただ、それらのどちらにもキーワードとして「実験計画法」があるため、もちろんそれぞれにおける「実験計画法」は方法が異なるのですが、キーワードの「実験計画法」から両者を比較する質問をいただくようです。今回は、その辺りを説明しながら、特に分子設計・材料設計・プロセス設計を実施するときには、ベイズ最適化をはじめとする適応的実験計画法のほうがよいですよ、といったお話しをします。
まず、タグチメソッドの実験計画法と、ベイズ最適化や適応的実験計画法で用いられる実験計画法は、それぞれ目的が異なります。タグチメソッドの実験計画法では、製品品質がばらつく要因となるプロセス変数を調査することが目的になります。プロセス変数の値が変化したときに、製品品質がばらついていればそのプロセス変数を上手く管理する必要がありますし、製品品質がばらついていなければ、あまり管理する必要もありません。そのため、実験計画法の中でも直交表を作って、実際に実験して、その実験結果を用いて分散分析などで製品品質に対するプロセス変数の影響を解析します。ここで注意することとして、製品品質のばらつきの要因となるプロセス変数がわかれば、もう実験しなくて構いません。例えば、2水準系直交表の一つであるL32直交表を作成し、その32回の実験をすれば、実験は終了なわけです。
一方で、ベイズ最適化や適応的実験手法で用いられる実験計画法においては、実験計画法で提案された実験をすべて実施すれば実験は終了、というわけではありません。その実験条件・実験結果を初期サンプルにして、例えばベイズ最適化で次の実験条件を提案する、提案された実験条件で実験する、実験結果もふまえてベイズ最適化で次の実験条件を提案する、提案された実験条件で実験する、、、、といったことを繰り返し行うことで、望ましい物性や活性の値を持つ分子・材料・プロセスを設計することが目的になります。その目的を達成するため、ガウス過程回帰をはじめとする回帰モデル (多くの場合は非線形モデル) を構築しやすいように、実験計画法で最初に実験する実験条件の候補を決めることになります。なので、最初の実験回数 (実験計画法で提案するサンプル数) は小さくして、その分、ベイズ最適化で今後の実験条件を提案していく、といった戦略になります。このほうが、これまでの実験結果を考慮して次の実験条件を提案でき、よりよい提案ができます。
ベイズ最適化をはじめとする適応的実験計画法をやる上で、直交表を作る方がよいのか、D最適基準でサンプル選択をする方がよいのか
上で述べたように、タグチメソッドにおける実験計画法、特に直交表では、直交表の実験をすべて実施すれば終了ある一方で、ベイズ最適化をはじめとする適応的実験計画法では、その後も実験をすることを前提として、初期サンプルを選択するので、そもそも分子設計・材料設計・プロセス設計をするときにはベイズ最適化における実験計画法、例えばD最適基準に基づく実験計画法 (D-実験計画法) をする方がよいのですが、ここでは定量的に、直交表に対するD-実験計画法の優位性を示します。なお、D-実験計画法の詳細についてはこちらをご覧ください。
実験結果のデータを使用して、例えばベイズ最適化ではガウス過程回帰モデルを構築します。ガウス過程回帰 (GPR) を始めとして、サポートベクター回帰 (SVR) などの様々な非線形モデルにおいて、カーネル関数が用いられます。カーネル関数を用いることで、説明変数 x と目的変数 y の間の非線形性を柔軟に設計でき、予測的な非線形モデルを構築できます。カーネル関数にはいろいろな種類がありますが、最もよく用いられるカーネル関数の一つはガウシアンカーネル (RBFカーネル) です。
どのカーネル関数を用いるにせよ、トレーニングデータでカーネル関数を用いて計算された値であるグラム行列のばらつきが重要です。なぜなら、グラム行列で y を説明することになるため、グラム行列がばらついていないと、そもそも y を説明できなくなってしまうからです。グラム行列のばらつきが大きいことは、予測精度の高いモデルの構築する必要条件といえます。
例えば、2水準系直交表の一つであるL32直交表でグラム行列の分散を計算すると 0.036 ですが、D-実験計画法で選択された 32 サンプルでグラム行列の分散を計算すると 0.046 と大きくなります。また3水準系直交表の一つであるL81直交表でグラム行列の分散を計算すると 0.020 ですが、D-実験計画法で選択された 81 サンプルでグラム行列の分散を計算すると 0.040 と大きくなります。直交表におけるカーネル関数の分散が小さい要因は、水準を 2 とか 3 とかに固定してしまうことにあります。直交表では、回帰モデルを構築するための情報量が小さくなってしまいますが、D-実験計画法では水準を決める必要はなく(決めることもできます)、情報量を高く維持することができます。このように、直交表ではなく、D-実験計画法で選択されたサンプルした方がガウス過程回帰をはじめとする非線形モデルを構築しやすいといえます。y の値が良好な値となる次の分子・材料・プロセスを設計するための初期サンプルとしては、D-実験計画法を用いた方がよいですね。
最初に実験する初期サンプルのサンプル数の調整するのも、D-実験計画法の方が便利です。そもそも上のL81直交表のときに、最初から81点を実験するのはちょっと多すぎるのでは。。。と感じた方もいらっしゃると思います。最初に実験するサンプル数は 30 として、ここで浮いた 51 回分の実験を、ベイズ最適化を 51 サイクル回すのに使用できれば、(場合によっては 51 回実験するまでもなく) より効果的に分子・材料・プロセスを設計できます。
また、x の数が増えると直交表を作るに凄まじい数のサンプルが必要になってしまいます。例えば 3 水準で x が 10 変数あると、59049 サンプルです。D-実験計画法では最初に受験するサンプルを自由に設定できます。仮に x が 100 変数あっても、最初に実験する 30 サンプルを提案することが可能です。もちろんこの30サンプルは、ガウス過程回帰モデルをはじめとする回帰モデルを構築しやすいように選択されます。
以上のように、タグチメソッドはすでに確立された方法論でありますが、特にその実験計画法においては、分子設計・材料設計・プロセス設計をする状況において、 D-実験計画法を用いるとよいです。そして、D-実験計画法もベイズ最適化をはじめとする適応的実験計画法も、Datachemical LAB で実現できます。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。