ケモメトリックス

すでに100万サンプル超え!?金子研ではこれまでどのようなデータセットを扱ってきたのか

これまで金子研では、学生たちやわたしが、いろいろな種類のデータセットを扱ってまいりました。参考までに、これまでのデータセットを、教師ありのサンプル数 (目的変数の値のあるサンプル数) と一緒にまとめました。共同研究に関するものなど、ぼやかし...

[Pythonコードあり] GTMR(Generative Topographic Mapping Regression)でデータの可視化・回帰分析・モデルの適用範囲・モデルの逆解析・化学構造生成をいっぺんにやってしまいます! (物性・活性が2つ以上でもOK)

またまた Structure Generator based on R-Group (SGRG) という化学構造を生成する Python プログラムへの、新たな機能追加です。前回はベイズ最適化 (Bayesian Optimization,...

[Pythonコードあり] ベイズ最適化で所望の物性や活性となる確率の高い化学構造を生成する (物性・活性が2つ以上でもOK)

Structure Generator based on R-Group (SGRG) という化学構造を生成する Python プログラムへの、新たな機能追加です。今回の機能追加でバージョンを 1.0 → 2.0 としました。SGRG に関...

[Pythonコードあり] iterative Gaussian Mixture Regression(iGMR)で欠損値を補完しましょう!(目的変数があってもなくても構いません)

下図のような欠損値 (欠損データ) のあるデータセットがあるとします。穴あきのデータセットですね。こんなときに、穴の空いたところである欠損値を補完する方法を提案します。上の図のようなデータセットを下図のようにできます。たとえば、論文や特許か...

半教師あり学習するときはサンプル選択しましょう![金子研論文][Pythonコードあり]

半教師あり学習 (半教師付き学習) に関する、金子研学生との共著論文が Chemometrics and Intelligent Laboratory Systems に掲載されました。半教師あり学習のメリットはこちらに書いたとおりでして、...

データ解析の基本的な流れを整理します

いろいろなデータセットを解析する上で、データ解析の基本的な流れを整理しておきます。ここでは、回帰分析やクラス分類をするときにように、教師ありのデータセット、つまり目的変数 Y があるようなデータセットを解析することを想定しています。流れにお...

[Pythonコード付き] 主成分分析(PCA)に基づく半教師あり学習

回帰分析のときに、教師ありデータ (目的変数 y の値がそろったデータ) と教師なしデータ (y の値がないデータ) とを合わせてから主成分分析 (Principal Component Analysis, PCA) で成分 (潜在変数) ...

[Pythonコード付き] 相関係数で変数選択したり変数のクラスタリングをしたりしてみましょう

回帰分析やクラス分類をする前の、データセットの前処理の話です。2 つの説明変数 (記述子・特徴量) の間で、相関係数の絶対値が大きいとき、それらの変数は似ているということです。余計な変数は、回帰モデル・クラス分類モデルに悪影響を及ぼすため、...

[解析結果付き] Boruta、ランダムフォレストの変数重要度に基づく変数選択手法

Boruta という、ランダムフォレスト (Random Forest, RF) の変数重要度に基づいた変数選択手法について、パワーポイントの資料とその pdf ファイルを作成しました。いろいろなデータセットを解析しましたが、モデルの推定性...

物性や活性の推定値が大きくなるように、メインの骨格と側鎖を遺伝的アルゴリズムで最適化して、新たな化学構造を生成するPythonプログラムを公開します

以前に、Structure Generator based on R-Group (SGRG) という化学構造を生成する Python プログラムを公開しました。メインの骨格を一つに設定して、その自由結合手に結合する側鎖を、フラグメントの候...
タイトルとURLをコピーしました