データ解析・機械学習をはじめたいとき、市販のソフトウェアを使うのがよいか、プログラミングを勉強するのがよいか、それぞれのメリット・デメリットを考える 手持ちのデータを解析したり、データを用いて機械学習したりしたいとき、大きく分けて2つの方法があります。 データ解析や機械学習ができるソフトウェアを用いる プログラミングを学び、データ解析や機械学習をするです。ソフトウェアは、「データ解析 機... 2019.01.06 データ解析プログラミング研究室
【失敗例】yの値を推定したいサンプルがモデルの適用範囲内に入るように変数選択と次元削減をすればいいのでは!? これから書くことか過去の失敗例です。ご注意ください。回帰モデルでもクラス分類モデルでも、あるデータセットに基づいてモデルが構築されたとします。そのモデルを用いて新しいサンプルの目的変数 y の値を推定するとき、新しいサンプルがモデル構築用デ... 2018.12.23 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
(ノート)パソコンの選び方~金子研で購入するときにチェックする7つの項目~ データ化学工学研究室 (金子研) では学生一人ひとりにノートパソコンを貸出しています (もちろん自分のノートパソコンを使っても OK !)。基本的にデータ集め・データ解析・資料の作成などはそのノートパソコンで行い、大きな計算をするときは研究... 2018.12.16 データ解析研究室
バリデーション結果は、少数の比較には使ってよいが最適化に使ってはいけない!~外部バリデーションや(ダブル)クロスバリデーションでは何を評価しているのか?評価するときのジレンマとは?~ 回帰モデルやクラス分類モデルを評価するときの話です。評価のときに、クロスバリデーションやダブルクロスバリデーションが使われることもありますが、それぞれ何のために、何を評価しているのか?についてお話します。そもそも、どうしてモデルを評価したい... 2018.12.15 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
サンプルが少ないときはどうするか?・・・うーん、仕方がないのでデータ分布を仮定してたくさんサンプリングしましょう! (多変量の場合) あまりたくさんの実験ができないとき、あまり多くの分析ができないとき、あまり繰り返しシミュレーションできないときのお話です。今回は変数が複数 (多変量) のときです。ちなみに変数がひとつ (単変量) のときはこちらです。多変量でも、データ数が... 2018.12.01 ケモインフォマティクスケモメトリックスデータ解析プログラミングプロセス制御・プロセス管理・ソフトセンサー研究室
サンプルが少ないときはどうするか?・・・うーん、仕方がないので幅で考えましょう! (一変数・単変量で正規分布に従う場合) あまりたくさんの実験ができないとき、あまり多くの分析ができないとき、あまり繰り返しシミュレーションできないときのお話です。データ数が少ないため、偶然の要素を排除できません。今回は一変数のときに、"偶然の要素を排除できない" とはどういうこと... 2018.11.25 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
テストデータ・バリデーションデータ(モデル検証用データ)におけるモデルの精度が低いときのポジティブな側面 回帰分析やクラス分類の話です。データセットがあるとき、まずモデル構築用データ (トレーニングデータ) とモデル検証用データ (テストデータ) に分けます。次にトレーニングデータで回帰モデル・クラス分類モデルを構築します。そして、モデル構築に... 2018.11.18 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究室
ソフトセンサーの検討など時系列データを解析するとき用のモデルの評価指標 (改良版 r2) [金子研論文] わたしもついに Beware of ... 系の論文を書いてしまいました。その名の通り、注意喚起する系の論文です。過去には他にこんなものがありました。 Beware of q2! Beware of R2: Simple, Unambigu... 2018.11.10 ケモインフォマティクスケモメトリックスデータ解析プロセス制御・プロセス管理・ソフトセンサー研究発表
部分的最小二乗回帰 (Partial Least Squares Regression, PLS) モデルの逆解析するときのちょっとしたメリット 回帰分析やクラス分類でモデルを作ったあと、多くの場合において、そのモデルを逆解析します。モデルの逆解析についてはこちらをご覧ください。回帰モデルを構築するとき、部分的最小二乗回帰 (Partial Least Squares Regress... 2018.11.05 ケモインフォマティクスケモメトリックスデータ解析研究室
Sparse Generative Topographic Mapping(SGTM): データの可視化とクラスタリングを一緒に実行する方法 [金子研論文] 今回は、Sparse Generative Topographic Mapping (SGTM) という、GTM のアルゴリズムを改良することで、データの可視化をすると同時に、クラスタリングも一緒に実行できる手法についてです。この手法を開発... 2018.10.27 ケモインフォマティクスケモメトリックスデータ解析プログラミングプロセス制御・プロセス管理・ソフトセンサー研究室論文