[Pythonコード付き] 主成分分析(PCA)に基づく半教師あり学習

回帰分析のときに、教師ありデータ (目的変数 y の値がそろったデータ) と教師なしデータ (y の値がないデータ) とを合わせてから主成分分析 (Principal Component Analysis, PCA) で成分 (潜在変数) を抽出し、教師ありデータにおいて PCA 後の成分と y との間で回帰モデルを構築する Python コードを作成しましたので共有します。この手法を図で表すとこんな感じです。

いわゆる半教師あり学習 (半教師付き学習) です。半教師あり学習のメリットはこちらに書いたとおりです。

半教師あり学習 (半教師付き学習) の４つのメリット (回帰分析・クラス分類)

機械学習の手法、統計的・情報学的手法の中には、教師なし学習や教師あり学習があります。教師なし学習では、変数を使ってサンプル群を可視化(見える化)したり、クラスター解析(クラスタリング)したりします。教師あり学習では、物性・活性などの目的変数...

コードはこちらにあります。

GitHub - hkaneko1985/semi_supervised_learning: Semi-Supervised Learning considering Applicability Domain (AD)

Semi-Supervised Learning considering Applicability Domain (AD) - hkaneko1985/semi_supervised_learning

メインのプログラムは semi_supervised_learning_pca.py です。サンプルデータセットとして、教師ありデータ: descriptors_with_logS.csv、教師なしデータ: descriptors_for_prediction.csv がありますので、semi_supervised_learning_pca.py と同じフォルダ (ディレクトリ) に置いてください。教師ありデータは水溶解度のデータセットです。

回帰分析手法は以下の中から選べます。