昨年度の金子研の四年生が主に研究していたテーマの成果が、Journal of Computer Chemistry, Japan にて論文公開になりました。タイトルは

モデルの適用範囲の考慮したアンサンブル学習法の開発

です。下の URL から無料でご覧になれますので、もし興味がございましたらよろしくお願いいたします。

回帰分析においてアンサンブル学習は、元のデータセットからサンプルや特徴量をランダムに選択して、たくさんのサブデータセットを作成し、サブデータセットごとに回帰モデル (サブモデル) を構築する方法です。

アンサンブル学習～三人寄れば文殊の知恵～たくさんモデルを作って推定性能を上げよう！

応化先生と生田さんがアンサンブル学習 (ensemble learning) について話しています。応化：今日はアンサンブル学習 (ensemble learning) についてです。生田：アンサンブル？音楽関係ですか？応化：いえ、合奏とか...

アンサンブル学習するとき、各サブモデルにおけるモデルの適用範囲 (Applicability Domain, AD) を考慮したほうが、最終的なモデルの推定性能が上がることは確認されていましたが、

アンサンブル学習でも、各サブモデルの適用範囲・適用領域をちゃんと考えよう！～Ensemble learning method Considering Applicability Domain of each Submodel (ECADS)～

応化先生と生田さんが論文 “Discussion on Regression Methods Based on Ensemble Learning and Applicability Domains of Linear Submodels”...

サブモデルごとの AD を定量的に比較することができず、その結果 AD を統合できなかったため、適切に新しいサンプルを予測することができませんでした。定量的に統合できない理由として、データ密度に基づく AD の場合、基本的にサンプル間の距離 (ユークリッド距離) に基づくため、アンサンブル学習で特徴量を (ランダムに) 選択すると、距離のスケールがサブモデルごとに異なり、それに応じてデータ密度のスケールも異なってしまうためです。

そこで、サブモデルごとの AD を統合すべく、特徴量の数と種類に依存しない AD の指標をいろいろと検討したところ、similarity-weighted root-mean-square distance (wRMSD) という指標がよさそうだという結果になりました。これはデータ密度と目的変数の推定誤差の両方を考慮した AD の指標であり、最終的な AD のスケールは目的変数のスケールになるため、サブモデル間で AD のスケールが同じになり、定量的な議論が可能になります。

wRMSD の値をサブモデルごとの重みに変換します。wRMSD は誤差と考えることができるため、wRMSD を逆数にして r 乗したものが重みになります。r の値はクロスバリデーションで最適化します。

この手法を wRMSD-based AD considering Ensemble Learning (WEL) と名付けました。WEL を用いることで、予測したいサンプルごとにそのサブモデルと近いほど (そのサブモデルでうまく予測できそうなほど) 重みが大きくなり、その重みに基づいて最終的な予測値を計算できます。

回帰分析手法として Partial Least Squares (PLS)