データ解析

階層的クラスタリング(クラスター分析)、近いクラスターを結合していく

応化先生と生田さんが、階層的クラスタリング(クラスター分析)について話しています。 応化:今日は階層的クラスタリングの話をします。 生田:よろしくお願いします。クラスタリングって、クラス分類と名前の似ているアレですよね。 応化:そうですね。...

クラス分類とクラスタリング、名前は似ていますが全く異なります

たまにクラス分類 (classification) とクラスタリング (clustering) を混同する人がいますが、クラス分類とクラスタリングとは全く別物です。逆の意味で使ってしまうことのないようにするためにも、それぞれの意味合いを押さ...

人の学習と人工知能の学習~人工知能を学習させるとかモデルを構築するということ~

データ化学工学研究室 (金子研) では、化学・化学工学に関する人工知能の研究や人工知能を応用した研究をしています。人工知能は、無から勝手に発生するわけではなく、人工知能を学習させる必要があります。 ただ、特別な “学習” をさせているわけで...

回帰分析・クラス分類をするときの、モデル構築用データ (トレーニングデータ) とモデル検証用データ (テストデータ) の分け方 [Kennard-Stoneアルゴリズムのコードあり]

回帰分析やクラス分類をするとき、大きな目的の一つは、新しいサンプルに対する推定性能が高いモデルを構築することです。なので、モデルを構築したとき、そのモデルの 新しいサンプルに対する推定性能を検証する必要があります。 今、いくつかのサンプル・...

トレーニングデータ・バリデーションデータ・テストデータの定義

トレーニングデータ・バリデーションデータ・テストデータの定義について書いておきます。バリデーションデータとテストデータとを逆の意味に使う人もいますが、ここでは wikipedia に記載されている内容にあわせます。 トレーニング、つまり学習...

[Python・MATLABコードあり] クロスバリデーションしないで非線形回帰モデルのハイパーパラメータを最適化する方法~サンプルの中点の活用~

どうして クロスバリデーション しないの? データ解析をしていると、いろいろな理由でクロスバリデーションを使いたくない、もしくはクロスバリデーションを使えないことがあります。 一つはサンプルが少なすぎるときです。クロスバリデーションでは、最...

ひと足先に2019年度のシラバス公開 (分離化学工学・化学プロセスシステム工学・化学工学特論2)

今年度分の講義の内容の書かれたシラバスについては、学部はこちらから、大学院はこちらから見ることができます。ちょうど今は来年度分のシラバスを作成する時期でして、今年度の講義における学生からのフィードバックを参考にして、作り終えました。そこで、...

独立成分分析 (Independent Component Analysis, ICA) ~PCAの無相関より強力な ”独立” な成分を抽出~

よく、主成分分析(Principal Component Analysis, PCA) と比べられることが多い、独立成分分析 (Independent Component Analysis, ICA) についてです。 PCA ではデータを低...

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず~サンプルが少ないときのモデル検証~

回帰モデルやクラス分類モデルを検証するときの話です。 モデルの検証 一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ...

スペクトル・時系列データの前処理の方法~平滑化 (スムージング) と微分~

スペクトル解析のときや、時系列データを扱うときの話です。 いくつかの点でスペクトルデータと時系列データは似ています。たとえば、隣同士の値が似ているっていう点ですね。他にも、データにノイズが含まれるという点も共通した特徴です。 このようにスペ...
タイトルとURLをコピーしました