転移学習する際のダブルクロスバリデーションによる評価

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルを構築するデータセットにおいてサンプルが少ない時、転移学習を活用することがあります。モデルを構築するためのデータセット(ターゲットのデータセット)と、サンプルが類似している一方で、y が異なっていたり、x 以外の条件、例えば (記録されていない) 実験条件が異なっていたりするデータセット(ソースのデータセット)を用いて、モデルに関する情報を獲得します。例えば、ソースのデータセットでハイパーパラメータを最適化したり、ディープニューラルネットワークなどをソースのデータセットで事前に学習しておいたり、ゼロ行列を用いてターゲットのデータセットと組み合わせて使用したりします。

[解析結果とPythonコードあり] 転移学習 (Transfer Learning) を用いたデータ解析
転移学習 (Transfer Learning) について、パワーポイントの資料とその pdf ファイルを作成しました。どんなシチュエーションで転移学習が使えるのか、そして転移学習により本当にモデルの精度は向上するのか、数値シミュレーション...

 

もちろん、転移学習したからと言って、モデルの予測精度が必ずしも向上するわけではありません。ネガティブトランスファーと言って、場合によっては点学習によりモデルの予測精度が低下することもあります。そのため、現状のデータセットで転移学習をするべきかしないべきか、検討する必要があります。

転移学習した際のモデルの予測精度と転移学習しない場合のモデルの予測精度を比較します。もともとサンプルが少なかったから転移学習を検討したこともあり、サンプル数が小さい中でモデルの予測精度を評価する必要があります。そのためダブルクロスバリデーションが有効です。

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず~サンプルが少ないときのモデル検証~
回帰モデルやクラス分類モデルを検証するときの話です。モデルの検証一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ, ...
[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第8章の一部
2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍 「化学のための Pythonによるデータ解析・機...

 

ただ、転移学習する際には、ダブルクロスバリデーションに少し工夫が必要です。

多くの場合に、ダブルクロスバリデーションにおける外側のクロスバリデーションにおいて、分割数をサンプル数と等しくする、すなわち leave-one-out クロスバリデーションとします。転移学習する際も同様の考え方でモデルの予測精度を評価します。具体的には、ターゲットのデータセットにおいて1つサンプルを省いておき、残りのサンプルとソースのデータセットの全てのサンプルを用いてモデルを構築します。例えば、ディープニューラルネットワーク等をソースのデータセットで事前に学習しておく場合には、その事前に学習したモデルを用意しておき、1つ少ないターゲットのデータセットでファインチューニングを行い、省いておいた1つのサンプルを予測します。ターゲットのデータセットにおいて次のサンプルを省くときには、ファインチューニング前の、ソースのデータセットで事前に学習しただけのモデルを用いて、改めて1つ少ないターゲットのデータセットでファインチューニングを行います。ゼロ行列を用いる転移学習の場合には、ソースのデータセットのサンプル全てと、1つ省いておいたターゲットのデータセットでモデルを構築し、省いておいた1つのサンプルを予測します。

サンプル数だけ繰り返すことで転移学習した際のモデルの予測精度をダブルクロスバリデーションで評価できます。この評価結果を、転移学習しない場合の、いわゆる一般的なダブルクロスバリデーション結果と比較して、どちらの方法を用いた際のモデルの予測精度が高いか検討します。

転移学習するかしないか検討する際には、モデルの予測精度の評価を適切に行うことが重要です。ぜひご活用ください。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました