Generative Topographic Mapping (GTM) について、pdfとパワーポイントの資料を作成しました。GTMの特徴や、データセットが与えられたときにGTMで何ができるか、GTMをどのように計算するかが説明されています。pdfもスライドも自由にご利用ください。
pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。ちなみに、DCEKit をインストールしていただければ GTM を実行できます。
DCEKit (Data Chemical Engineering toolKit) を PyPI にリリース!
これまで化学データ・化学工学データのデータ解析に役立つツールや金子研で開発された手法に関する Python コードを Github にて公開してきました。このたびは、これらのツール・手法 (の一部) に加えて、新たな機能を追加して、DCEK...
k3n error によるハイパーパラメータの自動選択付きです。ぜひ、ご活用ください。
興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。
GTMの概要
- データを可視化・見える化するための非線形手法
- 主成分分析などとは異なり、はじめに二次元平面の座標を作ってしまい、それを実際の多次元空間のサンプルに合わせ込むというスタンス
- ゴム状のシート (二次元平面) を曲げたり伸び縮みさせたりしながら、多次元空間にあるサンプルを通るようにシートを置き、そのシートにサンプルを射影するような手法
- 自己組織化マップ (Self-Organizing Map, SOM) のいろいろな問題点を解決した、上位互換の手法
- ハイパーパラメータの数が多いため、設定の際には注意が必要
- 2次元平面において近いところにあるサンプル同士は、多次元空間においても近い
スライドのタイトル
- GTM とは?
- GTMで解決できたSOMの問題点
- GTMの大まかな流れ
- こんなデータセットがあるとする
- 1つのサンプル、全サンプル
- GTMを誤解なく理解するための発想の転換
- ① 二次元平面のサイズを決める
- ① 二次元平面
- ① グリッド (格子点) の座標
- ② 二次元 → 多次元 の変換
- ② 基底関数
- ② 基底関数の中心の配置
- ② 重み W
- ② 二次元→多次元 の変換は分布をもつ
- ② すべてのグリッド(格子点)からの変換
- ③ 最適化のための準備
- ③ 尤度関数 L
- ③ EMアルゴリズム
- ③ Responsibility (R)
- ③ Mステップで最大化する関数 Lcomp
- ③ Lcompを最大化させるW
- ③ Lcompを最大化させる β
- ③ W の大きさに制約
- ③ W1 と β1
- ③ W と β の計算
- ④ 二次元平面上での確率
- ⑤ 二次元平面上の位置
- GTMのハイパーパラメータのその意味合い
- GTMのハイパーパラメータの最適化の方法
- 逆写像
- 逆写像のしかた
参考資料
- C.M. Bishop, M. Svensén, C.K.I. Williams, GTM: The Generative Topographic Mapping, Neural Computation, 10, 215-234, 1998.
以上です。
質問・コメントがありましたら、twitter・facebook・メールなどを通して教えていただけるとうれしいです。