実験結果が人依存のデータ解析・機械学習の考え方

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルを構築するときの x に実験者に関する情報を追加すると、モデルの予測性能が向上することがあります。例えば、実験者をダミー変数で表し、それを他の合成条件、作製条件、評価条件、プロセス条件などに追加してモデル構築の解析をすると追加する前と比べて、テストデータの予測結果やダブルクロスバリデーションの結果がよくなります。言い換えると、誰が実験をしたか、によって実験結果が左右されるということです。データ解析・機械学習をしたことのない方でも、そのような経験をしたり考えに至ったりした人もいるでしょう。

もちろん、実験者のパラメータを x に追加してモデルの予測精度が向上することは、データ解析・機械学習にとってはよいことです。y の変動・ばらつきの原因の一つが分かり、次の対策を打てることを意味します。

では、どのような対策を立てればよいでしょうか。

簡単にできることとして、モデルの逆解析で、実験の上手い人が実験をするように仮想サンプルを生成したり、y の目標値を達成するために実験をして欲しい人を選択したりできます。しかし、これは本質的ではありません。誰がやっても y が向上するような、x の合成条件・作製条件・評価条件・プロセス条件を見つけることが重要です。

そこで、人をパラメータで置き換えることを考えます。このパラメータ化をするときは、実験もしくは製造を設計できるようなパラメータを考えます。具体的には、人の性格・性質・特徴をパラメータ化するのではなく、実験操作まで落とし込んで考えます。例えば、撹拌する速さとか、サンプルを分析装置まで持っていくのにかかる時間など、別の人でも同じ条件として再現可能なパラメータを考えます。こうすることで、その人のどのような実験的な特徴が y に寄与したか検討できますし、他の人が実験をしたときに再現することもできます。

受験系によっては、人に依存して結果が変わることもあります。再現性のためにも、実験系をよく理解するためにも、データ解析・機械学習で設計するためにも、設計可能なパラメータを考えることが重要です。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました