今回は、Generative Topographic Mapping (GTM) でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析を一緒に実行できる手法を開発し、QSPR 解析・QSAR 解析と分子設計を行った論文が、molecular informatics に掲載されましたのでご紹介致します。
金子研オンラインサロン内ではこの論文を共有しています。ちなみに提案手法を実行できるコードはこちらにあります。
GTM は基本的にデータの可視化手法であり、自己組織化マップ (Self-Organizing Map, SOM) の上位互換の手法としても知られています。詳しくはこちらをご覧ください。
この GTM に少し工夫を加えることで、データの可視化・回帰分析・モデルの適用範囲・モデルの逆解析が一緒にできてしまうんです。このような手法として2つ提案しました。
- Generative Topographic Mapping – Multiple Linear Regression (GTM-MLR)
- Generative Topographic Mapping Regression
一つ目は名前の通りで GTM と MLR を組み合わせた手法です。GTM モデルと MLR モデルを組み合わせて式変形することで、回帰分析・モデルの適用範囲・モデルの逆解析を達成できます。ただ、この手法は説明変数 (記述子・特徴量など) X と目的変数 (物性・活性など) y との間が線形関係のときに限られます。
なのでオススメは二つ目の GTMR です。GTMRの特徴は以下のとおりです。
- X と y とが揃ったデータがあるとき、GTMR を実行すると一気にデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析ができる
- モデルの逆解析のときでも、モデルの適用範囲を考慮した X の推定値が得られる
- X と y との間の非線形性にも対応できる
- y が複数あっても問題ない
- 回帰分析や逆解析において X に制約条件があっても考慮できる
GTMR で最初にやることはとても簡単で、X と y とを横につなげて GTM を実行するだけです。ここで得られた GTM モデルを言い換えると、X・y の同時確率密度分布 p(X,y) となります。分布の種類としては、複数の正規分布の重ね合わせ、つまり混合ガウスモデル (Gaussian Mixture Model, GMM) というわけです。
GMM を教師あり学習に対応させた Gaussian Mixture Regression (GMR) についてはこちらで解説しました。
GMM → GMR としたことが、そのまま GTM → GTMR で使えます。上で述べたように、X と y とを横に並べたあとに GTM を実行することで p(X, y) が計算できるので、確率の乗法定理とベイズの定理により、回帰分析 p(y|X) と逆解析 p(X|y) が自由自在なわけです。y の種類が複数あっても問題ありません。
ある y の値を入力すると、X の値が得られます。QSPR 解析やQSAR 解析では、構造記述子の値です。この値と記述子の値が近い化合物を選んだり、化学構造を生成したりすればよいわけです。これにより自動的にモデルの適用範囲を考慮した分子設計が可能となります。
興味のある方は、論文をご覧になっていただけると幸いです。金子研オンラインサロン内ではこの論文を共有しています。また DCEKit をインストールしていただければ、GTM-MLR と GTMR を実行できます。ぜひお試しいただければと思います。
この手法は QSPR 解析や QSAR 解析だけでなく、スペクトル解析・ソフトセンサー・プロセス制御・プロセス管理などにも応用しています。もし興味のある方はご連絡お待ちしております。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。