金子研の論文が Analytical Science Advances に掲載されましたので、ご紹介します。タイトルは
What Is the Outlier—Consistent Outlier or Inconsistent Outlier?
です。
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築します。構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
この論文では、モデルの構築過程で検出される外れサンプルに注目します。既存の外れサンプル検出手法は外れ値の存在を識別するにとどまり、その後の活用方法までは指針を与えませんが、本研究では外れサンプルを有効に分類・活用する新しい概念と手法を提案しました。外れサンプルはモデルの予測精度を低下させる要因となりますが、必ずしも不要なデータとは限らず、適切に扱うことで有益な情報を提供する可能性があります。本研究では、外れサンプルを「一貫性のある外れサンプル(Consistent Outlier, CO)」と「特異的な外れサンプル(Inconsistent Outlier, ICO)」に分類することを提案しました。
COは、他のサンプルにおける x と y の関係性と整合しており、COを含めたデータセットで構築されたモデルを逆解析することで、x の外挿により y の値が向上する可能性があります。外れサンプルとして除外せず、逆解析をするモデルを構築する際にデータセットに入れましょう。
一方、ICO は現在の x の範囲や記述子では y を適切に説明できないサンプルであり、新たな変数を導入しない限り、既存モデルで精度良く予測することが困難です。ICO と他のサンプルとを説明するための x を検討して追加しましょう。
以上のように、本研究により外れサンプルを CO と ICO へ分類し、その外れサンプルをモデルの予測精度向上や逆解析に活用する指針が得られます。
外れサンプルが CO か ICO か判定するための指標として「ICO-likeness」を提案します。そして ICO-likeness を計算するため、三重交差検証(Triple Cross-Validation, TCV)を開発しました。TCV と平均絶対誤差(MAE)に基づいて ICO-likeness が計算されます。具体的には、外れサンプルを含めたモデルと除外したモデルの予測誤差を比較した、両者の差が ICO-likeness です。ICO-likeness が大きい外れサンプルはICO、小さい外れサンプルはCOと判定します。この評価により、外れサンプルが既存の x-y 関係に与える影響の度合いを定量的に把握できます。
本手法の有効性は、数値シミュレーションデータ(サインカーブに基づく非線形関数)と実際の化合物の沸点データセットを用いて検証されまし。数値シミュレーションでは、人工的に生成した外れサンプルがCOかICOかを正しく識別できることを確認した。実データセットに対しては、RDKitで算出した2次元分子記述子を説明変数、沸点を目的変数とし、ガウス過程回帰(Gaussian Process Regression, GPR)を用いた予測モデルを構築しました。特定のサンプル(例:237番、269番)が大きな予測誤差を示し、その後 ICO-likeness によりこれらが ICO であると判定されまし。実際に化学構造を確認したところ、実際にこれらサンプルには構造データの誤りが含まれていました。誤りを修正するとモデルの予測精度は大幅に向上し(決定係数R²は0.971から0.992、MAEは6.5から4.3に改善)、提案手法が外れサンプルの種類判定に有効であることが実証されました。
さらに、COと判定されたサンプルに対しては、xの外挿を行うことで既存のy値を改善する可能性がある点を議論します。一方、ICOの場合はまず x と y のデータ誤りを確認し、誤りがなければ新たな説明変数の導入を検討すべきです。本手法は、外れサンプルを単に除外するのではなく、適切に分類して議論することで機械学習モデルの予測精度向上とデータ解釈およびモデルの逆解析の深化を図るものであり、分子・材料・プロセス設計において有用な指針を提供します。
興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。
以上です。
質問やコメントなどありましたら、X、facebook、メールなどでご連絡いただけるとうれしいです。