直接的逆解析法では特徴量の制約、定性的な特徴量、転移学習も扱えます

金子研で開発している直接的逆解析についてです。

モデルの直接的逆解析法で効率的な適応的実験計画法ができるようになりました！[金子研論文]

金子研の論文が Chemometrics and Intelligent Laboratory Systems に掲載されましたので、ご紹介します。タイトルはAdaptive design of experiments based on G...

Gaussian Mixture Regression (GMR) を拡張して直接的モデル逆解析の予測精度を向上させました！[金子研論文]

金子研の論文が Chemometrics and Intelligent Laboratory Systems に掲載されましたので、ご紹介します。タイトルはExtended Gaussian Mixture Regression for ...

どうしてGMRやGTMRといったモデルの直接的逆解析法は良好な結果を生み出すのか？

回帰モデルを直接的に逆解析ができる、すなわち説明変数 X から目的変数 Y (Y が複数でもOK！) を直接的に推定できる手法である Gaussian Mixture Regression (GMR) や Generative Topogr...

(直接的逆解析ではない) いわゆる一般的な逆解析では、モデルを構築した後に、説明変数 x の大量のサンプルを生成し、構築したモデルに入力し、目的変数 y の値を予測します。そして予測値が良さそうな x のサンプルを選択します。ベイズ最適化も、y の予測値が獲得関数の値に変わるだけで、基本的な流れは同じです。このように一般的な逆解析は、「逆」解析とはいえ、順解析をたくさん繰り返す擬似的な逆解析といえます。大量のサンプルを生成していますが、すべての x の空間を探索できているわけではありません。もちろん遺伝的アルゴリズムなどの最適化アルゴリズムにより、探索を効率化することはできますが、そもそも x の空間が壮大であるため、すべてを探索することは困難です。また、擬似的な逆解析では、サンプル生成のとき、x にあらかじめ上限や下限を設定する必要があるため、その上限や下限を超えた結果は得られない、すなわち y の予測値が既存のデータを超越した結果は得られにくいといった特徴もあります。

一方、金子研で開発している直接的逆解析では、文字通り y の目標値から直接的に x の値を計算できます。x の値に上限・下限といった制限を加えることなく、y の値を達成する確率が最も高い x の値を解析的に求めることができます。Gaussian Mixture Regression (GMR) や Generative Topographic Mapping Regression (GTMR) で直接的逆解析を行うことができます。

[Pythonコードあり] 教師あり混合ガウスモデル(Supervised Gaussian Mixture Models)で回帰分析も逆解析も自由自在に♪～Gaussian Mixture Regression(GMR)～

混合ガウスモデル (Gaussian Mixture Models, GMM) を教師あり学習に対応させた Gaussian Mixture Regression (GMR) について、pdfとパワーポイントの資料を作成しました。GMM に...

Generative Topographic Mapping(GTM)でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行する方法 [金子研論文]

今回は、Generative Topographic Mapping (GTM) でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行できる手法を開発し、QSPR 解析・QSAR 解析と分子設計を行った論文が、molec...

もし興味ある方は、DCEKit でこれらの手法による直接的逆解析をお試しいただけると幸いです。

DCEKit (Data Chemical Engineering toolKit) を PyPI にリリース！

これまで化学データ・化学工学データのデータ解析に役立つツールや金子研で開発された手法に関する Python コードを Github にて公開してきました。このたびは、これらのツール・手法 (の一部) に加えて、新たな機能を追加して、DCEK...

直接的逆解析ができても、実験装置の制約等で、例えば温度を何℃以上にできないなど、特徴量に制約がある場合もあります。また、実験コスト・製造コストなどの背景により、特徴量によってはある値に固定したい、といった制約もあります。

もちろん直接的逆解析のメリットの一つは、x に上限・下限を設けることなく逆解析を達成できることですが、逆に、x に制約を与えることも簡単にできます。やり方としては、y の目標値と一緒に、制約のあるいくつかの x に対して制約の値をモデルに入力します。直接的逆解析をする GMR や GTMR では x と y の区別はありません。モデルにおいては、すべての特徴量の間の関係が構築されており、一部の特徴量の値を固定すると、それ以外の特徴量の確率密度分布が求まる、といった仕組みになっています。そのため、y の目標値を固定すると、それ以外の特徴量である x の確率密度分布を求められるのですが、y だけでなく、いくつかの x についても合わせて、値を入力することで、それら以外の x の値を計算することができます。このように、y の値だけでなく制約のある x の値も入力することで、その x が制約の中での、それ以外の x の値を計算できます。

この考え方で、定性的な x を含む逆解析についても対応できます。基本的には、定性的な特徴量はダミー変数 (0 or 1 の特徴量) に変換して x とし、モデル構築が行われます。直接的逆解析でも同様にしてモデルを構築しますが、普通に y の値を入力するだけでは、x が 0, 1 以外の値となってしまいます。そこでダミー変数の x については、 y の値と一緒に、0 もしくは 1 を入力します。これにより、ダミー変数の x が 0 もしくは 1 のときの、それ以外の x の値を計算できます。ダミー変数の x が 0 と 1 の両方の場合で、結果を確認するとよいでしょう。

こちらの転移学習では、

[解析結果とPythonコードあり] 転移学習 (Transfer Learning) を用いたデータ解析

転移学習 (Transfer Learning) について、パワーポイントの資料とその pdf ファイルを作成しました。どんなシチュエーションで転移学習が使えるのか、そして転移学習により本当にモデルの精度は向上するのか、数値シミュレーション...

データセットに 0 を追加して工夫することで、異なるデータセットを転移させて学習することができます。このようなデータセットの形式で構築されたモデルを直接的逆解析するとき、y の値を入力すると本来は 0 であるべき特徴量の x でも、0 以外の値になってしまいます。そこで、0 であるべき一部の x については、y の目標値と一緒に 0 を入力します。これにより、0 でなくてよい x の値を計算できます。

以上のようにして、直接的逆解析ではやり方を少し工夫することで、x の制約、定性的な x、転移学習を扱うことができます。ぜひご活用いただけますと幸いです。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。