Generative Topographic Mapping(GTM)でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行する方法 [金子研論文]

今回は、Generative Topographic Mapping (GTM) でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行できる手法を開発し、QSPR 解析・QSAR 解析と分子設計を行った論文が、molecular informatics に掲載されましたのでご紹介致します。

Just a moment...

 

金子研オンラインサロン内ではこの論文を共有しています。ちなみに提案手法を実行できるコードはこちらにあります。

GitHub - hkaneko1985/gtm-generativetopographicmapping: GTM (Generative Topographic Mapping)
GTM (Generative Topographic Mapping). Contribute to hkaneko1985/gtm-generativetopographicmapping development by creating...

 

GTM は基本的にデータの可視化手法であり、自己組織化マップ (Self-Organizing Map, SOM) の上位互換の手法としても知られています。詳しくはこちらをご覧ください。

Generative Topographic Mapping (GTM)~自己組織化マップ(SOM)の上位互換の手法~
Generative Topographic Mapping (GTM) について、pdfとパワーポイントの資料を作成しました。GTMの特徴や、データセットが与えられたときにGTMで何ができるか、GTMをどのように計算するかが説明されていま...

 

この GTM に少し工夫を加えることで、データの可視化・回帰分析・モデルの適用範囲・モデルの逆解析が一緒にできてしまうんです。このような手法として2つ提案しました。

 

  1. Generative Topographic Mapping – Multiple Linear Regression (GTM-MLR)
  2. Generative Topographic Mapping Regression

 

一つ目は名前の通りで GTM と MLR を組み合わせた手法です。GTM モデルと MLR モデルを組み合わせて式変形することで、回帰分析・モデルの適用範囲・モデルの逆解析を達成できます。ただ、この手法は説明変数 (記述子・特徴量など) X と目的変数 (物性・活性など) y との間が線形関係のときに限られます。

なのでオススメは二つ目の GTMR です。GTMRの特徴は以下のとおりです。

 

  • X と y とが揃ったデータがあるとき、GTMR を実行すると一気にデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析ができる
  • モデルの逆解析のときでも、モデルの適用範囲を考慮した X の推定値が得られる
  • X と y との間の非線形性にも対応できる
  • y が複数あっても問題ない
  • 回帰分析や逆解析において X に制約条件があっても考慮できる

 

GTMR で最初にやることはとても簡単で、X と y とを横につなげて GTM を実行するだけです。ここで得られた GTM モデルを言い換えると、X・y の同時確率密度分布 p(X,y) となります。分布の種類としては、複数の正規分布の重ね合わせ、つまり混合ガウスモデル (Gaussian Mixture Model, GMM) というわけです。

混合ガウスモデル (Gaussian Mixture Model, GMM)~クラスタリングするだけでなく、データセットの確率密度分布を得るにも重宝します~
クラスタリングについては、階層的クラスタリングと k-means クラスタリングをやりました。今回は、混合ガウスモデル (Gaussian Mixture Model, GMM) というクラスタリングの手法です。GMM を使うことで、データ...

 

GMM を教師あり学習に対応させた Gaussian Mixture Regression (GMR) についてはこちらで解説しました。

[Pythonコードあり] 教師あり混合ガウスモデル(Supervised Gaussian Mixture Models)で回帰分析も逆解析も自由自在に♪~Gaussian Mixture Regression(GMR)~
混合ガウスモデル (Gaussian Mixture Models, GMM) を教師あり学習に対応させた Gaussian Mixture Regression (GMR) について、pdfとパワーポイントの資料を作成しました。GMM に...

 

GMM → GMR としたことが、そのまま GTM → GTMR で使えます。上で述べたように、X と y とを横に並べたあとに GTM を実行することで p(X, y) が計算できるので、確率の乗法定理とベイズの定理により、回帰分析 p(y|X) と逆解析 p(X|y) が自由自在なわけです。y の種類が複数あっても問題ありません。

ある y の値を入力すると、X の値が得られます。QSPR 解析やQSAR 解析では、構造記述子の値です。この値と記述子の値が近い化合物を選んだり、化学構造を生成したりすればよいわけです。これにより自動的にモデルの適用範囲を考慮した分子設計が可能となります。

興味のある方は、論文をご覧になっていただけると幸いです。金子研オンラインサロン内ではこの論文を共有しています。また DCEKit をインストールしていただければ、GTM-MLR と GTMR を実行できます。ぜひお試しいただければと思います。

DCEKit (Data Chemical Engineering toolKit) を PyPI にリリース!
これまで化学データ・化学工学データのデータ解析に役立つツールや金子研で開発された手法に関する Python コードを Github にて公開してきました。このたびは、これらのツール・手法 (の一部) に加えて、新たな機能を追加して、DCEK...

 

この手法は QSPR 解析や QSAR 解析だけでなく、スペクトル解析・ソフトセンサー・プロセス制御・プロセス管理などにも応用しています。もし興味のある方はご連絡お待ちしております。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました