回帰分析における半教師あり学習 (半教師付き学習) のメリットを確認しました!

以前に、半教師あり学習 (半教師付き学習) における4つのメリットについて書きましたが、

半教師あり学習 (半教師付き学習) の4つのメリット (回帰分析・クラス分類)
機械学習の手法、統計的・情報学的手法の中には、教師なし学習や教師あり学習があります。教師なし学習では、変数を使ってサンプル群を可視化(見える化)したり、クラスター解析(クラスタリング)したりします。教師あり学習では、物性・活性などの目的変数...

 

その中で回帰分析におけるメリットを議論して、それをQSAR解析・QSPR 解析で確認した論文が、掲載されましたのでご紹介致します。

Illustration of merits of semi-supervised learning in regression analysis
Semi-supervised learning (SSL) is a method for learning the relationship between X and y, and the essential structure of...

金子研オンラインサロンでは、別途論文を共有します。

ここで対象としたのは、

  • 教師ありデータ + 教師なしデータ で次元削減をして、
  • 次元削減後の空間において、y との間で回帰分析を行う

手法です。図で表すと下のようになります。

 

 

X と y との間で回帰モデル y = f(X) を構築するのではなく、教師ありデータ + 教師なしデータを用いて低次元化した潜在変数 Z と y との間で回帰モデル y = f(Z) を構築します。

低次元化の手法としては、線形手法の主成分分析 (Principal Component Analysis, PCA) と 非線形手法のLocally Linear Embedding (LLE) で検討しています。ただ、もちろん Generative Topographic Mapping (GTM) や t-distributed Stochastic Neighbor Embedding (t-SNE) を用いることもできます。

Generative Topographic Mapping (GTM)~自己組織化マップ(SOM)の上位互換の手法~
Generative Topographic Mapping (GTM) について、pdfとパワーポイントの資料を作成しました。GTMの特徴や、データセットが与えられたときにGTMで何ができるか、GTMをどのように計算するかが説明されていま...
t-distributed Stochastic Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~
今回は、t-distributed Stochastic Neighbor Embedding (t-SNE)についてです。変数 (特徴量・記述子など) がたくさんある (多変量・多次元の) データセットが与えられたときに、適切に2次元平面...

 

このような半教師あり学習により、

  • モデルの安定性が向上する
  • モデルの適用範囲が広がる

わけです。教師ありデータだけで次元削減するよりも、教師ありデータと教師なしデータとを合わせて次元削減したほうが、潜在変数が安定することが確認できました。また、そのような潜在変数空間においてモデルの適用範囲 (Applicability Domain, AD)

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ~回帰モデル・クラス分類モデルを使うとき必須となる概念~
今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

を決めることで、従来と比べて AD が広くなりました。

ただ、潜在変数の数 (PCAにおける主成分の数) をいくつにするか、教師なしデータをどのように選択するか、といった課題は残っています。

興味のある方は、論文をご覧になっていただけると幸いです。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました