データ解析

適応型ソフトセンサーを検証できる Python コードを作りましたので、ぜひご自身のデータセットでお試しください

化学プラント・産業プラントにおける測定が難しいプロセス変数の値を、機械学習・人工知能で推定しよう! というのがソフトセンサーですが、 プラントでソフトセンサーを用いるときは、基本的に適応型ソフトセンサー (Adaptive Soft Sen...

SVR(サポートベクター回帰)で誤差が一定のところにサンプルが固まるのはどうして?何か問題があるの? → SVR の特徴も確認!

SVR (Support Vector Regression, サポートベクター回帰) で回帰モデルを構築したことのある方は、下の図のように、実測値 vs. 推定値プロットにおいて、対角線から一定に離れたところにサンプルが固まっている、つま...

化学構造・分子・化合物の扱いに関する基本的なこと

データセットがあると、データセットの可視化・クラスタリング・クラス分類・回帰分析などができるようになったり、モデルの適用範囲を設定したり、実験計画法により実験候補を選択できます。こちらにいろいろな手法の説明があります。 ただ、どの手法を使う...

[デモのプログラムあり] 勾配ブースティングGradient Boosting、特に Gradient Boosting Decision Tree (GBDT), XGBoost, LightGBM

勾配ブースティングGradient Boosting、特に Gradient Boosting Decision Tree (GBDT), XGBoost, LightGBM について、パワーポイントの資料とその pdf ファイルを作成しま...

目的変数が複数のときに実験計画法のベイズ最適化(Bayesian Optimization, BO)が対応!

実験計画法やベイズ最適化 (Bayesian Optimization, BO) についてはこちらに書いたとおりです。Python コードもあります。 今回は実験計画法の BO について目的変数が複数のときに対応しましたので報告します。プロ...

回帰モデル・クラス分類モデルの検証 (バリデーション) について考えていること

分子設計・材料設計・プロセス設計・プロセス制御設計 (ソフトセンサーなど) といった、いろいろな研究をする中で、たくさんの回帰モデルやクラス分類モデルなどを構築したり、構築したモデルを使ったりしています。モデルを扱う中で最も重要なことの一つ...

誘導体の化学構造を自動生成するプログラムを作りました。ご自由にお使いください

研究の関係で、ある骨格の誘導体の化学構造を生成したいことがありまして、生成したあとはその化学構造の活性だったり物性だったりを推定するので、Python で構造生成機を作ってしまいました。Github にありますので、必要な方はご自由にお使い...

記述子の計算結果を保存する(データベース化する)ときの3つの注意点

化学構造から構造記述子やフィンガープリントなどを計算するときの話です。たとえば mol ファイルや sdf ファイルから、次のようなパッケージやソフトウェアを用いて記述子を計算できます。 RDKit Mordred PaDEL DRAGON...

モデルがどれくらい外挿できるか (モデルの適用範囲の外をどのくらい予測できる) の検証方法

回帰モデルでもクラス分類モデルでも、モデルを構築したら、そのモデルでどれくらいの外挿ができるか、つまりモデルの適用範囲 (Applicability Domain, AD) の外をどのくらい予測できるのか、はとても大事です。AD はモデルが...

小さなデータセットが抱える大きな問題

サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。 逆です。 精度の高いモ...
タイトルとURLをコピーしました