プロセスインフォマティクスの特徴の一つとして、扱うデータに時系列データが含まれていることがあります。分子や材料の特徴量のデータとは、また別の取り扱いをする必要があります。温度、圧力、流量、滴下量、・・・といったプロセス変数が時間変化をしまして、どのように時間変化したかが重要になります。プロセスインフォマティクスにおける特徴量として、プロセス変数の時間変化を考慮する必要があります。
一つのやり方としては、プロセス変数ごとに、時刻ごとの値を特徴量にします。例えば、目的変数の値から時刻 0, 1, 2, … 遅れたプロセス変数の値を特徴量に用います。一つのプロセス変数に対して、複数の特徴量ができることになります。このような特徴量を用いることで、サンプルごとのプロセス変数の時間変化の違いを考慮することができます。なお、Long Short Term Memory (LSTM) ネットワークなどのリカレントニューラルネットワーク (Recurrent Neural Network, RNN) もこの考え方になります。
ただ、どの時刻から、どの時刻まで遅らせればよいのかは、基本的に事前にわかりませんし、プロセス変数ごとに適した時間は異なる可能性もあります。そもそも、どのプロセス変数が重要かも不明なことが多いです。そのため、データ解析・機械学習をしながら、重要なプロセス変数や重要な時間を検討する必要があります。
プロセス変数の時間変化を考慮するためのもう一つのやり方は、プロセス変数の時間変化から、新たな特徴量を作成することです。例えばバッチプロセスにおいて、あるプロセスにおける、プロセス変数の最大値、最小値、平均値、標準偏差、範囲、傾きといったバッチの時間変化を特徴づける量を、新たな特徴量として用います。
ただ、どんな特徴の量がよいのかは、基本的に事前にわかりませんし、プロセス変数ごとに適した特徴量は異なる可能性もあります。そもそも、どのプロセス変数が重要かも、わからないことが多いです。そのため、データ解析・機械学習をしながら、重要なプロセス変数や重要な特徴量を検討する必要があります。
このようにして、プロセスインフォマティクスにおいてプロセス変数の時系列データを検討します。重要なことは、プロセスを設計する際は、作成した特徴量の値を設計することになることです。時刻ごとの値を特徴量にした場合は、プロセス変数の時間変化を設計します。プロセス変数の時間変化から作成した特徴量を用いたときは、その特徴量の値を設計します。設計したら、その値になるように装置やプロセスを運転・制御することになりますので、制御できるような特徴量とする必要があります。このあたりも考慮して、特徴量を作成するようにしましょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。