回帰分析における半教師あり学習 (半教師付き学習) のメリットを確認しました！

2018.09.082019.05.22

以前に、半教師あり学習 (半教師付き学習) における４つのメリットについて書きましたが、

半教師あり学習 (半教師付き学習) の４つのメリット (回帰分析・クラス分類)

機械学習の手法、統計的・情報学的手法の中には、教師なし学習や教師あり学習があります。教師なし学習では、変数を使ってサンプル群を可視化(見える化)したり、クラスター解析(クラスタリング)したりします。教師あり学習では、物性・活性などの目的変数...

その中で回帰分析におけるメリットを議論して、それをQSAR解析・QSPR 解析で確認した論文が、掲載されましたのでご紹介致します。

金子研オンラインサロンでは、別途論文を共有します。

ここで対象としたのは、

教師ありデータ + 教師なしデータで次元削減をして、
次元削減後の空間において、y との間で回帰分析を行う

手法です。図で表すと下のようになります。

X と y との間で回帰モデル y = f(X) を構築するのではなく、教師ありデータ + 教師なしデータを用いて低次元化した潜在変数 Z と y との間で回帰モデル y = f(Z) を構築します。

低次元化の手法としては、線形手法の主成分分析 (Principal Component Analysis, PCA) と非線形手法のLocally Linear Embedding (LLE) で検討しています。ただ、もちろん Generative Topographic Mapping (GTM) や t-distributed Stochastic Neighbor Embedding (t-SNE) を用いることもできます。

Generative Topographic Mapping (GTM)～自己組織化マップ(SOM)の上位互換の手法～

Generative Topographic Mapping (GTM) について、pdfとパワーポイントの資料を作成しました。GTMの特徴や、データセットが与えられたときにGTMで何ができるか、GTMをどのように計算するかが説明されていま...

t-distributed Stochastic Neighbor Embedding (t-SNE) ～データの可視化に特化した手法～

今回は、t-distributed Stochastic Neighbor Embedding (t-SNE)についてです。変数 (特徴量・記述子など) がたくさんある (多変量・多次元の) データセットが与えられたときに、適切に２次元平面...

このような半教師あり学習により、

モデルの安定性が向上する
モデルの適用範囲が広がる

わけです。教師ありデータだけで次元削減するよりも、教師ありデータと教師なしデータとを合わせて次元削減したほうが、潜在変数が安定することが確認できました。また、そのような潜在変数空間においてモデルの適用範囲 (Applicability Domain, AD)

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回帰モデル・クラス分類モデルを使うとき必須となる概念～

今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

を決めることで、従来と比べて AD が広くなりました。

ただ、潜在変数の数 (PCAにおける主成分の数) をいくつにするか、教師なしデータをどのように選択するか、といった課題は残っています。

興味のある方は、論文をご覧になっていただけると幸いです。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました