金子研の論文が Case Studies in Chemical and Environmental Engineering に掲載されましたので、ご紹介します。タイトルは
T-Gen: Time series data generator for inverse analysis of machine learning models
です。時系列データを扱うときのモデルの逆解析において、予測用の時系列データを自動生成する方法の話です。
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築します。構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。後者はモデルの逆解析です。
材料設計やプロセス設計におけるモデルの逆解析では、x の仮想的なサンプルは基本的に乱数に基づいて生成されます。x の空間に満遍なく値を生成し、それらの y の値をすべて予測することで、広い x の領域から最適な解を選択できます。遺伝的アルゴリズムを用いて x の探索を効率化することもできます。
一方で、装置やプラントにおけるモデルの逆解析を行うときは、簡単にはいきません。装置やプラントにはダイナミクスが存在し、データセットは時系列データであり、x としてプロセス変数だけでなく、その時間変化も設計する必要があります。例えば時系列データには自己相関が存在し、単純に x を乱数で生成しただけでは時系列データにはなりません。
本研究では、任意の機械学習手法で時系列データを用いて構築されたモデルの逆解析をするための、x の時系列データを自動的かつ大量に生成する手法を開発することを目的としました。バッチプロセスをはじめとして、既存の時系列データが少ない中で、仮想的な時系列データを生成する必要があるため、学習なしに時系列データを生成するようにします。本研究ではフーリエ変換に着目しました。離散フーリエ変換を行った後の、周波数領域表現の複素数の値を、乱数に基づいて変更し、それらを逆フーリエ変換することで時系列データらしい仮想的なサンプルを生成します。
提案手法の検証として、二つの実際のプロセスにおける時系列データを用いて、提案手法を用いて生成したところ、時系列データらしい仮想サンプルが得られました。さらに、生成した時系列データをモデルの逆解析に応用し、多様な y の値が予測されることを確認しました。
興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。
以上です。
質問やコメントなどありましたら、twitter、facebook、メールなどでご連絡いただけるとうれしいです。