時系列データにおけるモデル適用範囲

目的変数 y と説明変数 x のデータを準備して、x と y の間で数理モデル y = f(x) を構築し、モデルに基づいて x の値から y の値を予測したり、y の値が目標値になるような x の値を設計したりします。モデルで予測するとき、基本的にはモデルの適用範囲 (Applicability Domain, AD) を設定し、x の値を入力する前に、それが AD 内か AD 外なのか推定したり、y の予測値のばらつきを計算したりします。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

 

AD 内であれば y の予測値を信用できます。もちろんベイズ最適化のように、あえて AD 外を探索する方法もありますが、

守りの AD 攻めの BO (AD: モデルの適用範囲、BO: ベイズ最適化)
分子設計でも材料設計でもプロセス設計でも、説明変数 X と目的変数 Y のそろったデータセットを準備して、X と Y の間でモデル Y = f(X) を構築します。構築したモデルを用いて、Y が目標の値となるような X の候補を設計します。...

 

これは実験と x の設計を繰り返し行うことが大前提であり、基本的に AD 外の x の値では y の予測値を信用できません。予測値を信用したいときは、AD 内から探索したり、AD 内の x を予測したりする必要があります。

ソフトセンサーをはじめとする時系列データ解析では、x の設計というよりはむしろ、x の値から y の値を予測し、その予測値を有効活用することが一般的です。予測値を活用するためには、その予測値を信用できないといけませんので、AD を設定したら AD 内か AD 外かが重要になります。もしくは予測値の標準偏差が小さいほど望ましいです。

時系列データの特徴として、時々刻々とデータが増えることが挙げられます。温度や圧力といった簡単に測定可能なプロセス変数のデータだけでなく、測定困難なプロセス変数のデータも、頻度は低いかもしれませんが、着実にサンプルが増えていきます。そのため適応型ソフトセンサー (adaptive soft sensor) のように、新しく測定されたデータを活用してモデルの予測精度を維持、向上させる仕組みもあります。

適応型ソフトセンサーで産業プラントにおけるプロセス状態等の変化に対応する (Adaptive Soft Sensor)
化学プラント・産業プラントにおいて、測定することが難しいプロセス変数の値を、コンピュータでリアルタイムに推定するため、ソフトセンサーが活用されています。 “ソフトセンサー” とかっこいい名前がついていますが、結局はあるいくつかのプロセス変数...

 

数理モデルが更新されるのですから AD も更新する必要があります。

もちろん時系列データの AD だからといって特別な方法で設定するといったことはありません。一般的なデータ解析と同様に、上で挙げた URL 先の方法で、k 近傍法や One-Class Support Vector Machine (OCSVM) 等で AD を設定します。

k最近傍法(k-Nearest Neighbor, k-NN)でクラス分類・回帰分析・モデルの適用範囲(適用領域)の設定をしよう!
今回は、k最近傍法 (k-Nearest Neighbor, k-NN) についてです。k-NN だけで、 クラス分類 回帰分析 モデルの適用範囲(適用領域)の設定 の3つもできてしまうんです。 そんな有用な k-NN について、pdfとパ...
One-Class Support Vector Machine (OCSVM) で外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!
今回は、One-Class Support Vector Machine (OCSVM) についてです。OCSVM は SVM を領域推定問題に応用した手法であり、外れ値・外れサンプルを検出できたり、データ密度を推定できたりします。データ密...

 

一方で、新たなサンプルが増えたら、そのサンプルをデータセットに追加して再度 AD を準備するとよいです。ただ k 近傍法 の kや OCSVM における ν や γ のようなハイパーパラメータの最適化まで、サンプルが増えるごとに実施する必要はありません。ハイパーパラメータのチューニングまでしようとすると、手間・コストもかかりますし、ハイパーパラメータを自動的に更新したとしても、結果的におかしなハイパーパラメータの値が設定されてしまう可能性もあります。例えば k 近傍法でしたらデータセットにサンプルを追加するだけ OK であり、OCSVM でしたらサンプルを追加した後にモデルを構築することになります。 AD 内と AD 外を分ける閾値を設定している場合は、この閾値もハイパーパラメータとしてとらえて、特に更新する必要はありません。

時系列データの解析をする際は、ぜひ AD を設定するだけでなく、新しいサンプルを用いて AD を更新するようにしてください。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました