回帰分析のときにアンサンブル学習で自動的かつロバストに外れサンプルを見つける Python プログラムを公開します 今回は外れサンプルを検出するお話です。外れ値ではなく外れサンプルです。外れ値は、他の値と (大きく) 離れた値のことであり、外れ値がデータ解析のときに悪影響を及ぼすことがあります。ただ、回帰分析のときには、大事なのは説明変数 X と目的変数... 2019.05.19 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー化学工学研究室
共同研究・コンサルティングの相談や技術相談をご検討の方は、こちらをご一読いただけますと幸いです 共同研究・コンサルティングや技術相談のご検討をいただき、感謝申し上げます。一度 金子に会って相談したい、という方もいらっしゃると思います。とてもうれしいことです。ただ、とても多くの方から相談を受けていたり、その中で実際に共同研究・コンサルテ... 2019.05.13 ケモインフォマティクスケモメトリックスデータ解析プログラミングプロセス制御・プロセス管理・ソフトセンサー化学工学研究室
適応型ソフトセンサーを検証できる Python コードを作りましたので、ぜひご自身のデータセットでお試しください 化学プラント・産業プラントにおける測定が難しいプロセス変数の値を、機械学習・人工知能で推定しよう! というのがソフトセンサーですが、プラントでソフトセンサーを用いるときは、基本的に適応型ソフトセンサー (Adaptive Soft Sens... 2019.05.13 データ解析プロセス制御・プロセス管理・ソフトセンサー研究室
SVR(サポートベクター回帰)で誤差が一定のところにサンプルが固まるのはどうして?何か問題があるの? → SVR の特徴も確認! SVR (Support Vector Regression, サポートベクター回帰) で回帰モデルを構築したことのある方は、下の図のように、実測値 vs. 推定値プロットにおいて、対角線から一定に離れたところにサンプルが固まっている、つま... 2019.04.21 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
[デモのプログラムあり] 勾配ブースティングGradient Boosting、特に Gradient Boosting Decision Tree (GBDT), XGBoost, LightGBM 勾配ブースティングGradient Boosting、特に Gradient Boosting Decision Tree (GBDT), XGBoost, LightGBM について、パワーポイントの資料とその pdf ファイルを作成しま... 2019.04.09 ケモインフォマティクスケモメトリックスデータ解析プログラミングプロセス制御・プロセス管理・ソフトセンサー研究室
目的変数が複数のときに実験計画法のベイズ最適化(Bayesian Optimization, BO)が対応! 実験計画法やベイズ最適化 (Bayesian Optimization, BO) についてはこちらに書いたとおりです。Python コードもあります。今回は実験計画法の BO について目的変数が複数のときに対応しましたので報告します。プログ... 2019.03.25 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
回帰モデル・クラス分類モデルの検証 (バリデーション) について考えていること 分子設計・材料設計・プロセス設計・プロセス制御設計 (ソフトセンサーなど) といった、いろいろな研究をする中で、たくさんの回帰モデルやクラス分類モデルなどを構築したり、構築したモデルを使ったりしています。モデルを扱う中で最も重要なことの一つ... 2019.03.11 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
モデルがどれくらい外挿できるか (モデルの適用範囲の外をどのくらい予測できる) の検証方法 回帰モデルでもクラス分類モデルでも、モデルを構築したら、そのモデルでどれくらいの外挿ができるか、つまりモデルの適用範囲 (Applicability Domain, AD) の外をどのくらい予測できるのか、はとても大事です。AD はモデルが... 2019.03.03 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
小さなデータセットが抱える大きな問題 サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。逆です。精度の高いモデル... 2019.02.25 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
このデータセットにはどの距離を用いればよいの??~ユークリッド距離・マンハッタン距離・チェビシェフ距離・マハラノビス距離~ データ解析において、サンプル同士がどれくらい似ているか、サンプル間の類似度を調べるため、距離が用いられます。サンプル間の距離が小さい = 2つのサンプルは似ている、ということです。距離といってもいろいろあります。たとえば、ユークリッド距離・... 2019.02.24 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室