あまりたくさんの実験ができないとき、あまり多くの分析ができないとき、あまり繰り返しシミュレーションできないときのお話です。
今回は変数が複数 (多変量) のときです。ちなみに変数がひとつ (単変量) のときはこちらです。
多変量でも、データ数が少ないと偶然の要素を排除できません。今回は、少ないながらも手元にあるデータをつかって、データ分布を仮定します。具体的には、混合ガウスモデル (Gaussian Mixture Model, GMM) を仮定します。複数の正規分布の重ね合わせで表現される分布ですね。GMM について詳しく知りたい方はこちらをご覧ください。
そして、仮定した分布に従うように、仮想サンプルをたくさん生成します。
今回も jupyter notebook でシミュレーションしながら、実行結果をご覧いただきながら説明します。お楽しみください!
ちなみに、回帰分析やクラス分類などの教師あり学習のときは、こちらの y-randomization で過学習 (オーバーフィッティング) しやすいデータセット・学習法なのか検証しましょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。