ケモメトリックス

目的変数が複数のときに実験計画法のベイズ最適化(Bayesian Optimization, BO)が対応!

実験計画法やベイズ最適化 (Bayesian Optimization, BO) についてはこちらに書いたとおりです。Python コードもあります。 今回は実験計画法の BO について目的変数が複数のときに対応しましたので報告します。プロ...

Structure Generator based on R-Group (SGRG) を使って何ができますか?

こちらにおいて、 誘導体の化学構造を自動生成するプログラム Structure Generator based on R-Group (SGRG) の話をしました。 今回は SGRG を活用してどんなことができるのか、について書いておきます...

回帰モデル・クラス分類モデルの検証 (バリデーション) について考えていること

分子設計・材料設計・プロセス設計・プロセス制御設計 (ソフトセンサーなど) といった、いろいろな研究をする中で、たくさんの回帰モデルやクラス分類モデルなどを構築したり、構築したモデルを使ったりしています。モデルを扱う中で最も重要なことの一つ...

誘導体の化学構造を自動生成するプログラムを作りました。ご自由にお使いください

研究の関係で、ある骨格の誘導体の化学構造を生成したいことがありまして、生成したあとはその化学構造の活性だったり物性だったりを推定するので、Python で構造生成機を作ってしまいました。Github にありますので、必要な方はご自由にお使い...

記述子の計算結果を保存する(データベース化する)ときの3つの注意点

化学構造から構造記述子やフィンガープリントなどを計算するときの話です。たとえば mol ファイルや sdf ファイルから、次のようなパッケージやソフトウェアを用いて記述子を計算できます。 RDKit Mordred PaDEL DRAGON...

モデルがどれくらい外挿できるか (モデルの適用範囲の外をどのくらい予測できる) の検証方法

回帰モデルでもクラス分類モデルでも、モデルを構築したら、そのモデルでどれくらいの外挿ができるか、つまりモデルの適用範囲 (Applicability Domain, AD) の外をどのくらい予測できるのか、はとても大事です。AD はモデルが...

小さなデータセットが抱える大きな問題

サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。 逆です。 精度の高いモ...

このデータセットにはどの距離を用いればよいの??~ユークリッド距離・マンハッタン距離・チェビシェフ距離・マハラノビス距離~

データ解析において、サンプル同士がどれくらい似ているか、サンプル間の類似度を調べるため、距離が用いられます。サンプル間の距離が小さい = 2つのサンプルは似ている、ということです。 距離といってもいろいろあります。たとえば、ユークリッド距離...

モデルの解釈に関する考え方・スタンス

金子研オンラインサロンにおける話題の中から一つ。 Slack で機械学習によって構築されたモデルの解釈に関する質問があり、わたしが回答しました。 質問や回答の詳細は伏せますが (興味のある方はオンラインサロンにご登録くださいw) モデルの解...

主成分分析(Principal Component Analysis, PCA)の前に変数の標準化(オートスケーリング)をしたほうがよいのか?

変数がたくさんある多変量データを解析する前に、変数の標準化 (オートスケーリング) をすることは、こちらに書きました。 データセットの可視化手法であり低次元化手法でもある主成分分析 (Principal Component Analysis...
タイトルとURLをコピーしました