回帰分析における半教師あり学習 (半教師付き学習) のメリットを確認しました!

シェアする

以前に、半教師あり学習 (半教師付き学習) における4つのメリットについて書きましたが、

半教師あり学習 (半教師付き学習) の4つのメリット (回帰分析・クラス分類)
機械学習の手法、統計的・情報学的手法の中には、教師なし学習や教師あり学習があります。教師なし学習では、変数を使ってサンプル群を可視化(見える...

その中で回帰分析におけるメリットを議論して、それをQSAR解析・QSPR 解析で確認した論文が、掲載されましたのでご紹介致します。

https://www.sciencedirect.com/science/article/pii/S0169743917307761

2018年10月25日までこちらから無料で論文を見られるようです。金子研オンラインサロンでは、別途論文を共有します。

ここで対象としたのは、

  • 教師ありデータ + 教師なしデータ で次元削減をして、
  • 次元削減後の空間において、y との間で回帰分析を行う

手法です。図で表すと下のようになります。

X と y との間で回帰モデル y = f(X) を構築するのではなく、教師ありデータ + 教師なしデータを用いて低次元化した潜在変数 Z と y との間で回帰モデル y = f(Z) を構築します。

低次元化の手法としては、線形手法の主成分分析 (Principal Component Analysis, PCA) と 非線形手法のLocally Linear Embedding (LLE) で検討しています。ただ、もちろん Generative Topographic Mapping (GTM) や t-distributed Stochastic Neighbor Embedding (t-SNE) を用いることもできます。

Generative Topographic Mapping (GTM)~可視化・見える化したときに近いサンプル同士は実際も近いことが保証済み!~
Generative Topographic Mapping (GTM) について、pdfとパワーポイントの資料を作成しました。GTMの特徴...
t-distributed Stochastic Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~
今回は、t-distributed Stochastic Neighbor Embedding (t-SNE)についてです。変数 (特徴量・...

このような半教師あり学習により、

  • モデルの安定性が向上する
  • モデルの適用範囲が広がる

わけです。教師ありデータだけで次元削減するよりも、教師ありデータと教師なしデータとを合わせて次元削減したほうが、潜在変数が安定することが確認できました。また、そのような潜在変数空間においてモデルの適用範囲 (Applicability Domain, AD)

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分...

を決めることで、従来と比べて AD が広くなりました。

ただ、潜在変数の数 (PCAにおける主成分の数) をいくつにするか、教師なしデータをどのように選択するか、といった課題は残っています。

興味のある方は、論文をご覧になっていただけると幸いです。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする