プロセス状態ごとに異なる重要なプロセス変数とその動特性を考慮した適応型ソフトセンサーEGAVDS-LWPLSを開発しました![金子研論文]

金子研の論文が Chemometrics and Intelligent Laboratory Systems に掲載されましたので、ご紹介します。タイトルは

 

Adaptive soft sensor ensemble for selecting both process variables and dynamics for multiple process states

 

です。これは修士卒の山田 信仁さんが修士のときに取り組んだ研究の成果です。

適応型ソフトセンサー (adaptive soft sensor) の予測精度を向上させる一つの取り組みとして、プロセス変数 x の選択があります。重要な x のみ選択することで、目的変数 y と関係のない x がノイズとなって適応型ソフトセンサーに影響することを防ぐことができ、予測精度の向上につながります。

また、プロセスの動特性、すなわち x がどれくらいの時間遅れをともなって y に影響しているかを考慮することも重要です。x の時間遅れを的確に考慮できれば、それ以外の時間がノイズとなって y に影響することを防ぐことができ、予測精度の向上につながります。

一方で、重要な x やその時間遅れは、プロセス状態ごとに異なると考えられます。たとえば異なる銘柄の製品を製造するプラントにおいて、銘柄ごとに異なる x や時間遅れが重要となる可能性があります。ただ、これまでは適応型ソフトセンサーを開発しようとしたとき、収集したデータセットをすべて用いて x やその時間遅れを最適化して得られた、一セットの x とその時間遅れを使用しておりました。同じデータセットの中でも、重要な x やその時間遅れはプロセス状態ごとに異なると考えられます。

そこで提案手法ではまず、Gaussian Mixture Model (GMM) でクラスタリングを行い、データセットをプロセス状態ごとに分割します。

混合ガウスモデル (Gaussian Mixture Model, GMM)~クラスタリングするだけでなく、データセットの確率密度分布を得るにも重宝します~
クラスタリングについては、階層的クラスタリングと k-means クラスタリングをやりました。今回は、混合ガウスモデル (Gaussian Mixture Model, GMM) というクラスタリングの手法です。GMM を使うことで、データ...

 

Bayesian Information Criterion (BIC) を指標にすることでクラスターの数も自動的に決定されます。

その後、クラスターごとに x とその時間遅れを同時に最適化します。これには Genetic Algorithm-based process Variable and Dynamics Selection (GAVDS) を用いました。

[Pythonコードあり] スペクトル解析における波長領域や時系列データ解析におけるプロセス変数とその時間遅れを選択する方法
遺伝的アルゴリズム (Genetic Algorithm, GA) を使って回帰モデルの推定性能がよくなるように、説明変数 (記述子・特徴量・入力変数) を選択する手法を以前解説しました。今回は、スペクトル解析における波長選択と、時系列デー...

 

クラスターごとに、選択する領域の数も変えながら、x とその時間遅れを同時に最適化することで、複数セットの x とその時間遅れの組み合わせが得られます。

x とその時間遅れの組み合わせごとに、Locally Weighted Partial Least Squares (LWPLS) で適応型ソフトセンサーを構築・運用します。

Locally-Weighted Partial Least Squares (LWPLS, 局所PLS) ~あのPLSが非線形性に対応!~ [Python・MATLABコードあり]
Partial Least Squares (PLS) を変数間の非線形性に対応させた Locally-Weighted Partial Least Squares (LWPLS, 局所PLS) について、pdfとパワーポイントの資料を作成...

 

y の予測をするときは、異なるプロセス状態において x やその時間遅れが最適化された、複数の LWPLS モデルが同時に予測しています。

たとえば 100 個の LWPLS モデルがあると、x (とその時間遅れ) の値を入力したときに、100 個の y の予測値が得られます。それらを、モデルごとの重みを考慮したアンサンブル学習により統合し、最終的な (一つの) y の予測値とします。具体的には、Midpoints between k-Nearest-Neighbor data points (MidKNN) で計算した RMSE の二乗の逆数に基づいて、予測するごとに重みを決定しています。

[Python・MATLABコードあり] クロスバリデーションしないで非線形回帰モデルのハイパーパラメータを最適化する方法~サンプルの中点の活用~
どうして クロスバリデーション しないの?データ解析をしていると、いろいろな理由でクロスバリデーションを使いたくない、もしくはクロスバリデーションを使えないことがあります。一つはサンプルが少なすぎるときです。クロスバリデーションでは、最初の...

 

これにより、予測している時刻におけるプロセス状態が得意な LWPLS モデル (そのプロセス状態に特化した x やその時間遅れで構築された LWPLS モデル) の重みが大きくなるように、y を予測できます。

開発した適応型ソフトセンサーの名前は EGAVDS-LWPLS です。

EGAVDS-LWPLS を実際の二つのプラントのデータセットを用いて検証することで、従来の LWPLS モデルや、単純に GAVDS で x やその時間遅れを最適化したあとに構築された LWPLS モデルと比較して、予測精度が大幅に向上すること、そしてプロセス状態ごとに的確に y の値を予測できることを確認しました。

興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました