[Pythonコード付き] 相関係数で変数選択したり変数のクラスタリングをしたりしてみましょう

回帰分析やクラス分類をする前の、データセットの前処理の話です。2 つの説明変数 (記述子・特徴量) の間で、相関係数の絶対値が大きいとき、それらの変数は似ているということです。余計な変数は、回帰モデル・クラス分類モデルに悪影響を及ぼすため、...

[解析結果付き] Boruta、ランダムフォレストの変数重要度に基づく変数選択手法

Boruta という、ランダムフォレスト (Random Forest, RF) の変数重要度に基づいた変数選択手法について、パワーポイントの資料とその pdf ファイルを作成しました。いろいろなデータセットを解析しましたが、モデルの推定性...

物性や活性の推定値が大きくなるように、メインの骨格と側鎖を遺伝的アルゴリズムで最適化して、新たな化学構造を生成するPythonプログラムを公開します

以前に、Structure Generator based on R-Group (SGRG) という化学構造を生成する Python プログラムを公開しました。 メインの骨格を一つに設定して、その自由結合手に結合する側鎖を、フラグメントの...

ノイズとの付き合い方、普段の生活でも同じこと!?

日頃からデータセットを解析していますが、データ解析 = ノイズをうまく扱うこと、といっても過言ではありません。ノイズというのは、不要な情報のことです。ノイズは何も測定誤差や実験誤差に限ったことではありません。たとえば回帰分析において、説明変...

本を書いていて思ったこと

ここ 2,3 ヶ月、本を書いていまして、先週に脱稿しました。内容のキーワードとしては、 Python 初学者 データ解析 機械学習 分子設計 材料設計 ソフトセンサー 異常検出・診断 といった感じです。サンプルプログラム付きで勉強しやすく、...

金子研オンラインサロンを 1 年間継続してみて

金子研オンラインサロンをはじめてから 1 年が経ちました。登録者は 162 名です (2019年6月9日現在)。学生、大学教員、企業の方など、いろいろな立場の方が参加されていまして、化学だけでなく物理・工学・経済などいろいろな分野を背景にも...

部分的最小二乗回帰(Partial Least Squares Regression, PLS)の回帰係数の証明

こちらの↓部分的最小二乗回帰 (Partial Least Squares Regression, PLS) の回帰係数についてです。 上の記事を読んでいたりして PLS のことを知っていること前提でお話します。PLS でも、y = Xb ...

2018 年度における学生の研究まとめ

昨年度も 3 月に金子研の学生たちが卒業していきました。少し遅くなってしまいましたが、2018 年度の学生の研究成果をまとめておきます。 江尾は医薬品設計に関する研究です。活性の測定された化合物を用いて、活性 y と記述子 x との間で機械...

回帰分析における目的変数の実測値 vs. 推定値プロットを、解像度を上げて見る

解像度を上げるといっても、画素の密度を上げるわけではなく、より詳細に検討するということです。 回帰分析をしたら、以下のような目的変数の実測値 vs. 推定値プロットが得られたとしましょう。 ちなみにこのプロットは、こちらの論文にある沸点のデ...

メインの骨格を適当に変えたり、側鎖を適当に変えたりして、新たな化学構造を生成するPython プログラムを公開します

以前に、Structure Generator based on R-Group (SGRG) という化学構造を生成する Python プログラムを公開しました。 こちらは、メインの骨格を一つに設定して、その自由結合手に結合する側鎖を、フラ...
タイトルとURLをコピーしました