【研究員の募集】異なる時間をもつ多変量時系列データの潜在変数への変換(逆変換も可能)

シェアする

下に詳細を示しますが、多変量時系列データに関して課題を抱えていまして、解決できるアイデアがあり、Python プログラミングでそのアイデアを実現できる方を募集しています。主成分分析やオートエンコーダー等の低次元化手法を単純には適用できません。またフーリエ変換やウェーブレット変換では上手くいきませんでした。

現状、私の中では今回のデータ形式に合わせたオートエンコーダーのようなものを想定していますが、それに限りません。ただ、少なくとも該当する特徴 (詳細は以下に示します) をもつ多変量時系列データの特徴量を潜在変数に変換できるだけでなく、潜在変数から元の多変量時系列データの特徴量への逆変換が可能な仕組みが必要です。

もし解決できるアイデアがあり、Python プログラミングでそのアイデアを実現できるのであれば、研究員として迎え入れたいと思います。本業をお持ちの方でも、他の空いている時間に実施していただければ副業としてでも OK です。詳細を以下に示しますので、ぜひご検討のほどよろしくお願いいたします

  • 一つのサンプルが時系列データであり、複数のサンプルがあります。
  • 時系列データは多変量であり、例えば時刻ごとの温度・圧力などの測定値のように、複数のパラメータの時系列データです。
  • 一言でいえば、バッチプロセスにおいて異なる時間をもつ複数のバッチデータなのですが、そのデータを想像できない方でも、ご理解いただけるように以下に説明を記載します。
  • サンプルごとに、時系列データの時間が異なります。ただし、温度・圧力のような計測されているパラメータの種類は同じです。パラメータが計測されている時間の長さのみサンプルごとに異なり、一つのサンプルにおける計測時間はパラメータによらず同じです。
  • サンプルを縦に並べて横に温度・圧力などの時系列データを並べたとき、特徴量は t を時刻とすると、温度(t=0)、温度(t=1)、温度(t=2)、・・・、温度(t=tend)、圧力(t=0)、圧力(t=1)、圧力(t=2)、・・・、圧力(t=tend)、・・・ です。なお tend がサンプルごとに異なり、横 (特徴量) の長さは異なります。無理やり、サンプルの中で最も大きい tend で特徴量の長さを揃えようとしたときには、ある時刻以降 特徴量の値が入っていないサンプルが存在することになります。
  • 上のようなデータセットを扱い、(サンプルごとに数が異なる) 特徴量から、同じ数の潜在変数に変換したいと考えています。
  • 潜在変数に変換できるだけでなく、潜在変数から元の特徴量に逆変換できる方法が必要です。
  • フーリエ変換やウェーブレット変換では上手くいかなかったため、主成分分析やオートエンコーダーのような仕組みを想像しています。

説明は以上です。アイデアのある方は、ご連絡をお待ち申し上げます。有望そうであれば Zoom 等のオンライン打合せで今後の計画等をお聞かせいただき、問題なさそうであれば研究員として迎え入れたいと思います。期間や給与、実施方法等は応相談で、オンライン打合せで話し合えればと思います。副業としてでも OK です。ぜひご検討のほどよろしくお願いいたします。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする