日立製作所と金子研における共同研究の成果の論文が Analytical Science Advances に掲載されましたので、ご紹介します。タイトルは
です。これは共同研究として日立製作所の方々と一緒に研究した成果です。
バイオ医薬品の製造において、プロセス中の各種成分を非破壊に、リアルタイムに、定量的に分析するため、Process Analytical Technologies (PAT) が重要です。PAT で鍵となるのは振動分光法です。振動分光法には近赤外分光法、中赤外分光法、ラマン分光法がありますが、今回は近赤外分光法に着目しました。本共同研究では fed-batch cell culture process を対象として、培養液における Fourier transform near infrared (FT-NIR) multiplex process analyzer spectroscopy のスペクトルを x、グルコース濃度と乳酸濃度を y とし、x と y の間で回帰モデル y=f(x) を構築します。回帰分析手法は線形の Partial Least Squares regression (PLS) です。
今回は培養液のサンプルが少ないため、波長選択と転移学習で PLS モデルの予測精度向上を試みました。
波長選択に関して、特にサンプル数が小さいときには、遺伝的アルゴリズム (Genetic Algorithm, GA) のような最適化アルゴリズムを活用して、何らかのモデルの評価指標 (統計量) を向上させようとすると、たとえ評価指標の計算にクロスバリデーションを使っても、過学習 (オーバーフィティング) しやすいです。この辺りの話についてはこちらをご覧ください。
そこで今回は Boruta を活用しました。
Boruta は非線形手法であるランダムフォレストで計算された各特徴量の重要度に基づく特徴量選択の手法であるため、x と y の間の非線形性を考慮して、波長が選択されます。ただ今回の回帰分析手法は線形 PLS であり、選択された x と y と非線形関係はモデル化できません。
そこで PLS で計算できる各特徴量の重要度 (Variable Importance in Projection, VIP) に基づいた Boruta を開発しました。提案手法の名前は VIP-Boruta です。実際の培養液データを解析したところ、グルコース濃度と乳酸濃度ともに、波長選択前や Boruta による波長選択結果と比べて、VIP-Boruta により波長選択することで、モデルの予測精度が向上し、妥当な波長が選択されることを確認しました。
さらに、転移学習も活用して予測精度の向上を試みました。
培養液のサンプルは少ないですが、疑似培養液のサンプルも活用することでサンプル数を増やすことができます。ただ、培養液のサンプルと擬似培養液のサンプルを単純に (縦に) つなげるだけと比べて、転移学習をすることで予測精度を向上させることができました。
興味のある方は、ぜひ論文をご覧いただければと思います。Open Access であり、どなたでもご覧いただけます。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。