新たなアンサンブル学習法を開発しました![金子研学生論文][Pythonプログラム付き]

シェアする

昨年度の金子研の四年生が主に研究していたテーマの成果が、Journal of Computer Chemistry, Japan にて論文公開になりました。タイトルは

モデルの適用範囲の考慮したアンサンブル学習法の開発

です。下の URL から無料でご覧になれますので、もし興味がございましたらよろしくお願いいたします。

https://www.jstage.jst.go.jp/article/jccj/18/4/18_2019-0010/_html/-char/ja

回帰分析においてアンサンブル学習は、元のデータセットからサンプルや特徴量をランダムに選択して、たくさんのサブデータセットを作成し、サブデータセットごとに回帰モデル (サブモデル) を構築する方法です。

アンサンブル学習 ~三人寄れば文殊の知恵~ たくさんモデルを作って推定性能を上げよう!
応化先生と生田さんがアンサンブル学習 (ensemble learning) について話しています。 応化:今日はアンサンブル...

アンサンブル学習するとき、各サブモデルにおけるモデルの適用範囲 (Applicability Domain, AD) を考慮したほうが、最終的なモデルの推定性能が上がることは確認されていましたが、

サブモデルごとの AD を定量的に比較することができず、その結果 AD を統合できなかったため、適切に新しいサンプルを予測することができませんでした。定量的に統合できない理由として、データ密度に基づく AD の場合、基本的にサンプル間の距離 (ユークリッド距離) に基づくため、アンサンブル学習で特徴量を (ランダムに) 選択すると、距離のスケールがサブモデルごとに異なり、それに応じてデータ密度のスケールも異なってしまうためです。

そこで、サブモデルごとの AD を統合すべく、特徴量の数と種類に依存しない AD の指標をいろいろと検討したところ、similarity-weighted root-mean-square distance (wRMSD) という指標がよさそうだという結果になりました。これはデータ密度と目的変数の推定誤差の両方を考慮した AD の指標であり、最終的な AD のスケールは目的変数のスケールになるため、サブモデル間で AD のスケールが同じになり、定量的な議論が可能になります。

wRMSD の値をサブモデルごとの重みに変換します。wRMSD は誤差と考えることができるため、wRMSD を逆数にして r 乗したものが重みになります。r の値はクロスバリデーションで最適化します。

この手法を wRMSD-based AD considering Ensemble Learning (WEL) と名付けました。WEL を用いることで、予測したいサンプルごとにそのサブモデルと近いほど (そのサブモデルでうまく予測できそうなほど) 重みが大きくなり、その重みに基づいて最終的な予測値を計算できます。

回帰分析手法として Partial Least Squares (PLS)

部分的最小二乗回帰(Partial Least Squares Regression, PLS)~回帰分析は最初にこれ!~
部分的最小二乗回帰 (Partial Least Squares Regression, PLS) について、pdfとパワーポイントの資料を...

を対象にして、PLS, アンサンブルPLS, WEL-PLS で比較検討したところ、水溶解度のデータセット・環境毒性のデータセット・薬理活性のデータセットすべてにおいて、WEL-PLS がベストの推定性能を発揮しました。

回帰モデルの推定性能の向上に興味がございましたら、お読みいただければと思います。

https://www.jstage.jst.go.jp/article/jccj/18/4/18_2019-0010/_html/-char/ja

また WEL の Python プログラムは、デモと一緒に https://github.com/hkaneko1985/wel に無料公開しておりますので、ぜひ一度お試しください。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする