教師あり学習と組み合わせて、教師なし学習の手法の選択やそのハイパーパラメータの選択をする

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

データセットの低次元化、可視化、クラスタリング、モデルの適用範囲の設定などはいわゆる教師なし学習であり、

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず～サンプルが少ないときのモデル検証～

回帰モデルやクラス分類モデルを検証するときの話です。モデルの検証一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ, ...

それを実施する時には、回帰分析やクラス分類の y のような正解はありません。各手法を実行して、その結果を活用したり、人が結果を解釈したりすることになります。そのため、例えばデータセットの可視化をする時にどの手法を用いるのが最適か、クラスタリングをする時にクラスター数はいくつが最適かといったことを自動的に決めるのは困難です。

適した手法やそのハイパーパラメータは、試行錯誤しながら、基本的には結果に基づいて解析者が判断することになります。ただ、教師なし学習を、教師あり学習と組み合わせることができれば、すなわち y を活用したり、準備したりすることができれば、それらの最適化は可能です。例えば、データセットを可視化する最適な手法を決めたい時には、様々な手法でデータを二次元に低次元化した後、その二次元のパラメータと y との間で回帰分析やクラス分類をして、そのモデルの予測性能が最も良好となる可視化手法として、可視化手法を選択します。これにより、y をなるべく説明可能な二次元のパラメータを計算できる、可視化手法を選択できます。

クラスタリングとクラス分類を組み合わせてクラスター数を最適化することもできます。