以前に、半教師あり学習 (半教師付き学習) における4つのメリットについて書きましたが、
![](https://datachemeng.com/wp-content/uploads/2017/07/SnapCrab_2017-7-8_17-0-54_No-00.png)
その中で回帰分析におけるメリットを議論して、それをQSAR解析・QSPR 解析で確認した論文が、掲載されましたのでご紹介致します。
金子研オンラインサロンでは、別途論文を共有します。
ここで対象としたのは、
- 教師ありデータ + 教師なしデータ で次元削減をして、
- 次元削減後の空間において、y との間で回帰分析を行う
手法です。図で表すと下のようになります。
X と y との間で回帰モデル y = f(X) を構築するのではなく、教師ありデータ + 教師なしデータを用いて低次元化した潜在変数 Z と y との間で回帰モデル y = f(Z) を構築します。
低次元化の手法としては、線形手法の主成分分析 (Principal Component Analysis, PCA) と 非線形手法のLocally Linear Embedding (LLE) で検討しています。ただ、もちろん Generative Topographic Mapping (GTM) や t-distributed Stochastic Neighbor Embedding (t-SNE) を用いることもできます。
![](https://datachemeng.com/wp-content/uploads/2017/08/SnapCrab_2017-8-12_17-32-20_No-00.png)
![](https://datachemeng.com/wp-content/uploads/SnapCrab_2018-6-3_14-4-5_No-00.png)
このような半教師あり学習により、
- モデルの安定性が向上する
- モデルの適用範囲が広がる
わけです。教師ありデータだけで次元削減するよりも、教師ありデータと教師なしデータとを合わせて次元削減したほうが、潜在変数が安定することが確認できました。また、そのような潜在変数空間においてモデルの適用範囲 (Applicability Domain, AD)
![](https://datachemeng.com/wp-content/uploads/SnapCrab_NoName_2018-5-20_6-43-34_No-00.png)
を決めることで、従来と比べて AD が広くなりました。
ただ、潜在変数の数 (PCAにおける主成分の数) をいくつにするか、教師なしデータをどのように選択するか、といった課題は残っています。
興味のある方は、論文をご覧になっていただけると幸いです。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。