波長選択と転移学習により培養液におけるグルコース濃度と乳酸濃度の予測精度が向上しました![日立製作所&金子研の共同研究論文]

日立製作所と金子研における共同研究の成果の論文が Analytical Science Advances に掲載されましたので、ご紹介します。タイトルは

 

Transfer learning and wavelength selection method in NIR spectroscopy to predict glucose and lactate concentrations in culture media using VIP‐Boruta

 

です。これは共同研究として日立製作所の方々と一緒に研究した成果です。

バイオ医薬品の製造において、プロセス中の各種成分を非破壊に、リアルタイムに、定量的に分析するため、Process Analytical Technologies (PAT) が重要です。PAT で鍵となるのは振動分光法です。振動分光法には近赤外分光法、中赤外分光法、ラマン分光法がありますが、今回は近赤外分光法に着目しました。本共同研究では fed-batch cell culture process を対象として、培養液における Fourier transform near infrared (FT-NIR) multiplex process analyzer spectroscopy のスペクトルを x、グルコース濃度と乳酸濃度を y とし、x と y の間で回帰モデル y=f(x) を構築します。回帰分析手法は線形の Partial Least Squares regression (PLS) です。

部分的最小二乗回帰(Partial Least Squares Regression, PLS)~回帰分析は最初にこれ!~
部分的最小二乗回帰 (Partial Least Squares Regression, PLS) について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、PLSで何ができるか、どのようにPLSを計算するかが説...

 

今回は培養液のサンプルが少ないため、波長選択と転移学習で PLS モデルの予測精度向上を試みました。

波長選択に関して、特にサンプル数が小さいときには、遺伝的アルゴリズム (Genetic Algorithm, GA) のような最適化アルゴリズムを活用して、何らかのモデルの評価指標 (統計量) を向上させようとすると、たとえ評価指標の計算にクロスバリデーションを使っても、過学習 (オーバーフィティング) しやすいです。この辺りの話についてはこちらをご覧ください。

モデルの推定性能を評価しても、その結果で最適化したら評価にならないので注意ですよ!
データ解析とか機械学習とかの話です。こちらの話と関連があります。たとえば回帰分析で、最小二乗法による線形重回帰分析 (Ordinary Least Squares, OLS) をしたとします。クロスバリデーションで外部データに対する OLS...

 

そこで今回は Boruta を活用しました。

[解析結果付き] Boruta、ランダムフォレストの変数重要度に基づく変数選択手法
Boruta という、ランダムフォレスト (Random Forest, RF) の変数重要度に基づいた変数選択手法について、パワーポイントの資料とその pdf ファイルを作成しました。いろいろなデータセットを解析しましたが、モデルの推定性...

 

Boruta は非線形手法であるランダムフォレストで計算された各特徴量の重要度に基づく特徴量選択の手法であるため、x と y の間の非線形性を考慮して、波長が選択されます。ただ今回の回帰分析手法は線形 PLS であり、選択された x と y と非線形関係はモデル化できません。

そこで PLS で計算できる各特徴量の重要度 (Variable Importance in Projection, VIP) に基づいた Boruta を開発しました。提案手法の名前は VIP-Boruta です。実際の培養液データを解析したところ、グルコース濃度と乳酸濃度ともに、波長選択前や Boruta による波長選択結果と比べて、VIP-Boruta により波長選択することで、モデルの予測精度が向上し、妥当な波長が選択されることを確認しました。

さらに、転移学習も活用して予測精度の向上を試みました。

[解析結果とPythonコードあり] 転移学習 (Transfer Learning) を用いたデータ解析
転移学習 (Transfer Learning) について、パワーポイントの資料とその pdf ファイルを作成しました。どんなシチュエーションで転移学習が使えるのか、そして転移学習により本当にモデルの精度は向上するのか、数値シミュレーション...

 

培養液のサンプルは少ないですが、疑似培養液のサンプルも活用することでサンプル数を増やすことができます。ただ、培養液のサンプルと擬似培養液のサンプルを単純に (縦に) つなげるだけと比べて、転移学習をすることで予測精度を向上させることができました。

興味のある方は、ぜひ論文をご覧いただければと思います。Open Access であり、どなたでもご覧いただけます。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました