未知の領域で過剰な自信を持たず「分からない」と正直に予測する安全な分類手法「kNNPC」を開発し、精度を維持したまま実用性を実証しました！！[金子研論文]

金子研の論文が Journal of Chemometrics に掲載されましたので、ご紹介します。タイトルは

kNNPC (k-Nearest Neighbor Algorithm Per-Class): Classification Method Predicting Extrapolation Regions With Reasonable Probability

です。

機械学習を用いたクラス分類において、予測モデルが学習データの分布から遠く離れた外挿領域のサンプルに対しても過剰に自信を持った確率（例えば一方のクラスが100%など）を出力してしまう問題は、分子設計やマテリアルズ・インフォマティクスなど、未知のデータに対する予測において誤った意思決定を招く危険性を孕んでいます。この過剰な自信による予測の非安全性を解消し、より信頼性の高いモデル運用を実現するために提案されたのが、クラスごとのk近傍法である「kNNPC（k-Nearest Neighbor Algorithm Per-Class）」です。

kNNPCの最大の特徴は、モデルの適用領域外（外挿領域）に対して明確な境界線を設けて予測をただ拒否するのではなく、確率的なアプローチによって保守的かつ合理的な確率を出力する点にあります。具体的には、予測対象となる未知のサンプルに対して、学習データ内の各クラスから上位k個のサンプルまでの平均距離をそれぞれ計算します。その際、クラスごとの距離に上限となる閾値を設けることで、すべての学習データから遠く離れたサンプルに対しては、全クラスの距離が同じ閾値に置き換えられる仕組みを導入しています。このキャップ処理によって、外挿領域のサンプルに対する各クラスの予測確率は、クラス数で割った最大の不確実性を示す分布（二値分類であればそれぞれ50%、三値分類であれば約33%）へと自動的に調整されます。

本手法の有効性は、視覚的に分かりやすいIrisデータセットに加えて、有機化合物の毒性データセット、および無機超伝導体の臨界温度データセットを用いた実証実験において確認されています。ロジスティック回帰やサポートベクターマシン、ランダムフォレスト、XGBoostといった従来の標準的な分類手法が、学習データが存在しない外挿領域でも100%あるいは0%という極端な確率を出力してしまうのに対し、kNNPCはそのような領域で一律に不確実性を反映した等確率を出力できることが示されました。さらに本手法の重要なインパクトとして、この安全な確率補正を導入しながらも、正解率や適合率、再現率、F1スコア、AUCといった従来の予測性能指標においては、既存の有力な手法と同等の高い水準を維持できることが挙げられます。

未知の化合物空間を探索する化学や材料科学の研究開発において、探索候補の多くは学習済みのモデルがカバーする領域の外側に存在するため、未知の領域での予測確率を適切に制御できるkNNPCは極めて実用的なセーフガードとして機能します。AIが「分からないものを、正しく分からないと確率で表現できる」というこのアプローチは、意思決定の安全性を担保しながら未知の材料探索を前進させるための基盤技術として、極めて大きな意義を持っています。

興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。

以上です。

質問やコメントなどありましたら、X、facebook、メールなどでご連絡いただけるとうれしいです。