データ解析

このデータセットにはどの距離を用いればよいの??~ユークリッド距離・マンハッタン距離・チェビシェフ距離・マハラノビス距離~

データ解析において、サンプル同士がどれくらい似ているか、サンプル間の類似度を調べるため、距離が用いられます。サンプル間の距離が小さい = 2つのサンプルは似ている、ということです。 距離といってもいろいろあります。たとえば、ユークリッド距離...

モデルの解釈に関する考え方・スタンス

金子研オンラインサロンにおける話題の中から一つ。 Slack で機械学習によって構築されたモデルの解釈に関する質問があり、わたしが回答しました。 質問や回答の詳細は伏せますが (興味のある方はオンラインサロンにご登録くださいw) モデルの解...

主成分分析(Principal Component Analysis, PCA)の前に変数の標準化(オートスケーリング)をしたほうがよいのか?

変数がたくさんある多変量データを解析する前に、変数の標準化 (オートスケーリング) をすることは、こちらに書きました。 データセットの可視化手法であり低次元化手法でもある主成分分析 (Principal Component Analysis...

2018年度金子研オンラインサロンメンバー限定 データ化学工学研究室(金子研究室)成果報告会を終えて

1月29日 (火) に、金子研オンラインサロンメンバー限定のデータ化学工学研究室 (金子研究室) 成果報告会を行ってまいりました。最終的なプログラムは以下のとおりです。 === 金子研オンラインサロンメンバー限定 2018年度データ化学工学...

2018年度「化学工学特論2」の講義資料を(ほぼ)すべて公開します

2018年度の秋学期において、大学院の 「化学工学特論2」 (先取り履修可能) の講義を行いました。内容としては、プログラミング・化学工学計算・化学や化学工学のデータの解析、といったところでしょうか。 ここでは、その講義資料の pdf ファ...

モデルの推定性能を評価しても、その結果で最適化したら評価にならないので注意ですよ!

データ解析とか機械学習とかの話です。こちらの話と関連があります。 たとえば回帰分析で、最小二乗法による線形重回帰分析 (Ordinary Least Squares, OLS) をしたとします。 クロスバリデーションで外部データに対する O...

MATLAB に慣れた人が Python を始めるときの11の注意点

この記事では、MATLAB にある程度慣れている人の中で、これから Python をはじめる人を対象としています。両方ともプログラミング言語で似ているところもあるため、0 から Python をはじめるよりは MATLAB を経験していたほ...

データ解析・機械学習をはじめたいとき、市販のソフトウェアを使うのがよいか、プログラミングを勉強するのがよいか、それぞれのメリット・デメリットを考える

手持ちのデータを解析したり、データを用いて機械学習したりしたいとき、大きく分けて2つの方法があります。 データ解析や機械学習ができるソフトウェアを用いる プログラミングを学び、データ解析や機械学習をする です。ソフトウェアは、「データ解析 ...

【失敗例】yの値を推定したいサンプルがモデルの適用範囲内に入るように変数選択と次元削減をすればいいのでは!?

これから書くことか過去の失敗例です。ご注意ください。 回帰モデルでもクラス分類モデルでも、あるデータセットに基づいてモデルが構築されたとします。そのモデルを用いて新しいサンプルの目的変数 y の値を推定するとき、新しいサンプルがモデル構築用...

(ノート)パソコンの選び方~金子研で購入するときにチェックする7つの項目~

データ化学工学研究室 (金子研) では学生一人ひとりにノートパソコンを貸出しています (もちろん自分のノートパソコンを使っても OK !)。基本的にデータ集め・データ解析・資料の作成などはそのノートパソコンで行い、大きな計算をするときは研究...
タイトルとURLをコピーしました