Sparse Generative Topographic Mapping(SGTM): データの可視化とクラスタリングを一緒に実行する方法 [金子研論文]

今回は、Sparse Generative Topographic Mapping (SGTM) という、GTM のアルゴリズムを改良することで、データの可視化をすると同時に、クラスタリングも一緒に実行できる手法についてです。この手法を開発し、QSPR 解析・QSAR 解析を行った論文が、Journal of Chemical Information and Modeling に掲載されましたので紹介します。

Just a moment...

 

金子研オンラインサロン内ではこの論文を共有しています。ちなみに提案手法を実行できるコードはこちらにあります。

GitHub - hkaneko1985/gtm-generativetopographicmapping: GTM (Generative Topographic Mapping)
GTM (Generative Topographic Mapping). Contribute to hkaneko1985/gtm-generativetopographicmapping development by creating...

 

GTM は基本的にデータの可視化手法であり、自己組織化マップ (Self-Organizing Map, SOM) の上位互換の手法としても知られています。詳しくはこちらをご覧ください。

Generative Topographic Mapping (GTM)~自己組織化マップ(SOM)の上位互換の手法~
Generative Topographic Mapping (GTM) について、pdfとパワーポイントの資料を作成しました。GTMの特徴や、データセットが与えられたときにGTMで何ができるか、GTMをどのように計算するかが説明されていま...

 

この GTM のアルゴリズムを少し改良して、モデルを sparse にすることで、データの可視化だけでなくクラスタリングも一緒にできてしまうんです。Sparse Generative Topographic Mapping (SGTM) と名付けました。

SGTM を思いついた背景に、GTM が混合ガウスモデル (Gaussian Mixture Model, GMM) と似ていることがあります。GMM についてはこちらをご覧ください。

混合ガウスモデル (Gaussian Mixture Model, GMM)~クラスタリングするだけでなく、データセットの確率密度分布を得るにも重宝します~
クラスタリングについては、階層的クラスタリングと k-means クラスタリングをやりました。 今回は、混合ガウスモデル (Gaussian Mixture Model, GMM) というクラスタリングの手法です。GMM を使うことで、デー...

 

実は GTM は、混合係数 (負担率) πk を 1 / (GTMマップのグリッド数) ですべて同じとし、共分散を 0, 分散をある値に固定した GMM のことなんです。この GMM を低次元 (だいたい二次元) に落とし込んだのが GTM ということです。

GMM はクラスタリングの手法です。これは、混合係数 πk が可変であることに由来します。GTM では混合係数に相当するものを  1 / (マップサイズ)2 に固定していましたので、クラスタリングはできませんでしたが、これを可変にすればクラスタリングもできるだろう、というわけです。そして実際に可変にして、W, β と一緒に Expectation-Maximization (EM) アルゴリズムで πk を最適化する手法を開発しました。

ちなみに、クラスター数も自動できまります。このやり方は、GMM と同じで ベイズ情報量基準 (Bayesian Information Criterion, BIC) を用います。GTM でもデータセットを確率密度関数として表せるので、BIC を使って最適クラスター数を推定できるわけです。

QSPR のデータセットや QSAR のデータセットを解析したところ、データの可視化の性能を表す指標 k3n error の値もほとんど変わることなく、つまり GTM と同様に可視化ができ、さらにクラスタリングも可能であることを確認しました。各サンプルに自動的にクラスターが割り当てられますので、色付きのサンプルとして二次元にプロットされて、とても見やすくなります。具体的な図は論文をご覧ください。

ちなみに、以前に GTM でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行する方法を開発した話をしました。

Generative Topographic Mapping(GTM)でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行する方法 [金子研論文]
今回は、Generative Topographic Mapping (GTM) でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行できる手法を開発し、QSPR 解析・QSAR 解析と分子設計を行った論文が、molec...

 

SGTM はこちらに応用することもできます。つまり、

  • データの可視化
  • クラスタリング
  • 回帰分析
  • モデルの適用範囲
  • モデルの逆解析

が同時にできるわけです。

興味のある方は、論文をご覧になっていただけると幸いです。金子研オンラインサロン内ではこの論文を共有しています。また DCEKit をインストールしていただければ SGTM を実行できます。ぜひお試しいただければと思います。

DCEKit (Data Chemical Engineering toolKit) を PyPI にリリース!
これまで化学データ・化学工学データのデータ解析に役立つツールや金子研で開発された手法に関する Python コードを Github にて公開してきました。このたびは、これらのツール・手法 (の一部) に加えて、新たな機能を追加して、DCEK...

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました