モデルがどれくらい外挿できるか (モデルの適用範囲の外をどのくらい予測できる) の検証方法 回帰モデルでもクラス分類モデルでも、モデルを構築したら、そのモデルでどれくらいの外挿ができるか、つまりモデルの適用範囲 (Applicability Domain, AD) の外をどのくらい予測できるのか、はとても大事です。AD はモデルが... 2019.03.03 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
小さなデータセットが抱える大きな問題 サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。 逆です。 精度の高いモ... 2019.02.25 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
このデータセットにはどの距離を用いればよいの??~ユークリッド距離・マンハッタン距離・チェビシェフ距離・マハラノビス距離~ データ解析において、サンプル同士がどれくらい似ているか、サンプル間の類似度を調べるため、距離が用いられます。サンプル間の距離が小さい = 2つのサンプルは似ている、ということです。 距離といってもいろいろあります。たとえば、ユークリッド距離... 2019.02.24 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
モデルの解釈に関する考え方・スタンス 金子研オンラインサロンにおける話題の中から一つ。 Slack で機械学習によって構築されたモデルの解釈に関する質問があり、わたしが回答しました。 質問や回答の詳細は伏せますが (興味のある方はオンラインサロンにご登録くださいw) モデルの解... 2019.02.18 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
主成分分析(Principal Component Analysis, PCA)の前に変数の標準化(オートスケーリング)をしたほうがよいのか? 変数がたくさんある多変量データを解析する前に、変数の標準化 (オートスケーリング) をすることは、こちらに書きました。 データセットの可視化手法であり低次元化手法でもある主成分分析 (Principal Component Analysis... 2019.02.10 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
2018年度金子研オンラインサロンメンバー限定 データ化学工学研究室(金子研究室)成果報告会を終えて 1月29日 (火) に、金子研オンラインサロンメンバー限定のデータ化学工学研究室 (金子研究室) 成果報告会を行ってまいりました。最終的なプログラムは以下のとおりです。 === 金子研オンラインサロンメンバー限定 2018年度データ化学工学... 2019.02.03 ケモインフォマティクスケモメトリックスデータ解析学会研究室研究発表
2018年度「化学工学特論2」の講義資料を(ほぼ)すべて公開します 2018年度の秋学期において、大学院の 「化学工学特論2」 (先取り履修可能) の講義を行いました。内容としては、プログラミング・化学工学計算・化学や化学工学のデータの解析、といったところでしょうか。 ここでは、その講義資料の pdf ファ... 2019.01.27 データ解析化学工学講義
モデルの推定性能を評価しても、その結果で最適化したら評価にならないので注意ですよ! データ解析とか機械学習とかの話です。こちらの話と関連があります。 たとえば回帰分析で、最小二乗法による線形重回帰分析 (Ordinary Least Squares, OLS) をしたとします。 クロスバリデーションで外部データに対する O... 2019.01.14 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
MATLAB に慣れた人が Python を始めるときの11の注意点 この記事では、MATLAB にある程度慣れている人の中で、これから Python をはじめる人を対象としています。両方ともプログラミング言語で似ているところもあるため、0 から Python をはじめるよりは MATLAB を経験していたほ... 2019.01.14 データ解析プログラミング研究室
データ解析・機械学習をはじめたいとき、市販のソフトウェアを使うのがよいか、プログラミングを勉強するのがよいか、それぞれのメリット・デメリットを考える 手持ちのデータを解析したり、データを用いて機械学習したりしたいとき、大きく分けて2つの方法があります。 データ解析や機械学習ができるソフトウェアを用いる プログラミングを学び、データ解析や機械学習をする です。ソフトウェアは、「データ解析 ... 2019.01.06 データ解析プログラミング研究室