データセットは生きもの。成長もしますし、それに応じて、モデルも成長します

シェアする

データセットは生きている、と思いながら解析するようにしています。ただ、生物とは何か、、、という話にするつもりはなくてですね、データセットは、サンプルが増えたり減ったり、特徴量 (変数、記述子) が増えたり減ったり、成長しているなあという話です。データセットが成長しているということは、それに従ってモデルも成長するんです。このあたりについて、お話します。

データセットのサンプルは増えたり減ったりします。新しいサンプルが追加されれば増えますし、外れサンプルとして判定されれば、削除されます。特徴量 (変数、記述子) も増えたり減ったりします。新しく特徴量を開発したら増えますし、不要な特徴量として判定されれば、削除されます。たとえば、分子設計や材料設計において、化合物を合成して目当ての物性や活性を測定したり、材料を作ったりしたときに、それをサンプルとしてデータセットに追加することで、データセットが成長します。

ソフトセンサーにおいて、測定が困難とはいっても、推定したいプロセス変数でも測定されたデータが蓄積します。これをサンプルとしてデータセットに追加することで、データセットが成長します。測定されているプロセス変数から、新たな特徴量を開発すれば、データセットが成長します。

データセットが成長するということは、それを用いて構築されるモデルも成長するということですし、さらには、そのデータセットに適した手法 (回帰分析手法・クラス分類手法など) も変わるということです。こちらに、回帰分析手法やクラス分類手法の選び方を書きました。

回帰分析手法・クラス分類手法の選び方
いつもどんな感じで回帰分析手法・クラス分類手法を選んでいるかお話します。予測結果の r2, RMSE, MAE, 正解率, ... といった...

成長したデータセットに合わせて、回帰分析手法やクラス分類手法を選びなおしたほうがよいと思います。つまり、サンプルが増えたり減ったりしたら、特徴量が増えたり減ったりしたら、再び、回帰分析手法やクラス分類手法を選ぶということです。面倒かもしれませんが、やったほうがよいです。

ソフトセンサーの分野では、化合物や各種の材料と比べるとサンプルの追加が多いためか、「適応型ソフトセンサー」として、サンプルが増えたときの対応をする研究分野が確立されています。

適応型ソフトセンサーで産業プラントにおけるプロセス状態等の変化に対応する (Adaptive Soft Sensor)
化学プラント・産業プラントにおいて、測定することが難しいプロセス変数の値を、コンピュータでリアルタイムに推定するため、ソフトセンサーが活用さ...

モデルは成長します。最初は推定性能が低くても、成長することで推定性能が高くなる可能性はありますし、最初は説明変数 x と目的変数 y との間の関係が線形でも、成長することで非線形になることもあります。新たなサンプルを予測できるようになることも。

データセットは生きもの、モデルは生きものとして、それぞれの成長も楽しめたらと思います。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする