データセットは生きもの。成長もしますし、それに応じて、モデルも成長します

データセットは生きている、と思いながら解析するようにしています。ただ、生物とは何か、、、という話にするつもりはなくてですね、データセットは、サンプルが増えたり減ったり、特徴量 (変数、記述子) が増えたり減ったり、成長しているなあという話です。データセットが成長しているということは、それに従ってモデルも成長するんです。このあたりについて、お話します。

データセットのサンプルは増えたり減ったりします。新しいサンプルが追加されれば増えますし、外れサンプルとして判定されれば、削除されます。特徴量 (変数、記述子) も増えたり減ったりします。新しく特徴量を開発したら増えますし、不要な特徴量として判定されれば、削除されます。たとえば、分子設計や材料設計において、化合物を合成して目当ての物性や活性を測定したり、材料を作ったりしたときに、それをサンプルとしてデータセットに追加することで、データセットが成長します。

ソフトセンサーにおいて、測定が困難とはいっても、推定したいプロセス変数でも測定されたデータが蓄積します。これをサンプルとしてデータセットに追加することで、データセットが成長します。測定されているプロセス変数から、新たな特徴量を開発すれば、データセットが成長します。

データセットが成長するということは、それを用いて構築されるモデルも成長するということですし、さらには、そのデータセットに適した手法 (回帰分析手法・クラス分類手法など) も変わるということです。こちらに、回帰分析手法やクラス分類手法の選び方を書きました。