実験計画法のお話です。こちらの記事では、
わかりやすさのために () 付きで「直交表」としていますが、厳密に言えば、いわゆる古くから使われている直交表ではありません。直交表のようではありますが、それとは別の方法で最初の実験条件の候補を選んでいます。では、どうして直交表を作らず別の方法、具体的には大量のサンプル生成と D 最適基準による選択によって、最初の実験条件の候補を選択するのでしょうか。
一言でいえば、汎用性が高い形で、最初の実験条件の情報量を増やすためです。そもそも実験計画法で前提にあるのは、実験条件 X と実験結果である物性や活性などの Y との間のモデル Y=f(X) です。このモデルに基づいて、(実験計画法のあとの) 次の実験条件の候補を決めることになりますので、X から Y を精度よく予測できるモデルを構築することを目指すことになります。
基本的には、 X つまり実験条件の間の相関関係がない方が、モデルの予測精度は上がりやすいです。もちろん、実験条件に何らかの組成比があるときなど、いくつかの実験条件の和が 1 (もしくは 100) になるといった制約条件があるために、相関係数がゼロになることが原理的にありえない場合もありますが、基本的には、X の間の相関がないように、X の下限から上限の間でなるべくまんべんなく取るように、実験条件の候補を決める必要があります。
いわゆる直交表では、因子 (実験条件) とその水準の数をあらかじめ決める必要があります。特に水準が二つや三つであると、その実験条件では二つもしくは三つの候補しか、実験条件の値として割り振られることはありません。サンプルによっては、もちろん他の実験条件は異なりますが、ある実験条件においてまったく同じ値で (たとえばまったく同じ反応温度で) 実験することになるわけです。たとえば少し値をずらすなどして、情報量を大きくする余地があります。また、実験条件の間に制約条件があると、直交表はその制約を考慮して作成するのが難しいです。
一方でこちらの
あらかじめサンプルを大量に生成して、その中から少数のサンプルを選択する方法であれば、いくつかの水準を決める必要がありませんので、情報量を高く保持したまま少ない数の実験条件の候補を選択できます。さらに実験条件の間に何らかの制約条件、たとえある原料は別の原料の2倍以上入れる必要があるとか、いくつかの実験条件 (組成比) の和が 1 になるとかがあったとしても、そのような制約条件を満たすように大量にサンプルを生成することで、その中から情報量が大きくなるように、具体的には D 最適基準が大きくなるように、少数のサンプルのみを選択できます。このように上の URL で示した方法であれば、より柔軟に色々なケースに対応できる、つまり汎用性が高い形で情報量の大きい実験条件の候補を選択できるわけです。
実験条件の最初の候補を決めるときは、ぜひ参考にしていただけると幸いです。上の URL には Python プログラムもあります。ぜひご活用ください。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。