Generative Topographic Mapping (GTM)~自己組織化マップ(SOM)の上位互換の手法~

Generative Topographic Mapping (GTM) について、pdfとパワーポイントの資料を作成しました。GTMの特徴や、データセットが与えられたときにGTMで何ができるか、GTMをどのように計算するかが説明されています。pdfもスライドも自由にご利用ください

pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。ちなみに、DCEKit をインストールしていただければ GTM を実行できます。

DCEKit (Data Chemical Engineering toolKit) を PyPI にリリース!
これまで化学データ・化学工学データのデータ解析に役立つツールや金子研で開発された手法に関する Python コードを Github にて公開してきました。このたびは、これらのツール・手法 (の一部) に加えて、新たな機能を追加して、DCEK...

k3n error によるハイパーパラメータの自動選択付きです。ぜひ、ご活用ください。

興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。

GTMの概要

  • データを可視化・見える化するための非線形手法
  • 主成分分析などとは異なり、はじめに二次元平面の座標を作ってしまい、それを実際の多次元空間のサンプルに合わせ込むというスタンス
  • ゴム状のシート (二次元平面) を曲げたり伸び縮みさせたりしながら、多次元空間にあるサンプルを通るようにシートを置き、そのシートにサンプルを射影するような手法
  • 自己組織化マップ (Self-Organizing Map, SOM) のいろいろな問題点を解決した、上位互換の手法
  • ハイパーパラメータの数が多いため、設定の際には注意が必要
  • 2次元平面において近いところにあるサンプル同士は、多次元空間においても近い

スライドのタイトル

  • GTM とは?
  • GTMで解決できたSOMの問題点
  • GTMの大まかな流れ
  • こんなデータセットがあるとする
  • 1つのサンプル、全サンプル
  • GTMを誤解なく理解するための発想の転換
  • ① 二次元平面のサイズを決める
  • ① 二次元平面
  • ① グリッド (格子点) の座標
  • ② 二次元 → 多次元 の変換
  • ② 基底関数
  • ② 基底関数の中心の配置
  • ② 重み W
  • ② 二次元→多次元 の変換は分布をもつ
  • ② すべてのグリッド(格子点)からの変換
  • ③ 最適化のための準備
  • ③ 尤度関数 L
  • ③ EMアルゴリズム
  • ③ Responsibility (R)
  • ③ Mステップで最大化する関数 Lcomp
  • ③ Lcompを最大化させるW
  • ③ Lcompを最大化させる β
  • ③ W の大きさに制約
  • ③ W1 と β1
  • ③ W と β の計算
  • ④ 二次元平面上での確率
  • ⑤ 二次元平面上の位置
  • GTMのハイパーパラメータのその意味合い
  • GTMのハイパーパラメータの最適化の方法
  • 逆写像
  • 逆写像のしかた

参考資料

  • C.M. Bishop, M. Svensén, C.K.I. Williams, GTM: The Generative Topographic Mapping, Neural Computation, 10, 215-234, 1998.

以上です。

質問・コメントがありましたら、twitter・facebook・メールなどを通して教えていただけるとうれしいです。

タイトルとURLをコピーしました