応化先生と生田さんがロバストなモデルについて話しています。

応化：今回は、ロバスト (robust) についてです。日本語に訳すと、頑健、ですね。

生田：ロバストも頑健も聞いたことがありません！

応化：日常生活ではあまり出てきませんよね。統計や機械学習をするとき、モデルを評価する言葉として出てきます。

生田：どんな意味ですか？褒め言葉ですか？

応化：はい、褒め言葉です。基本的には、ロバストなモデルを目指します。

生田：へー。回帰モデルとかクラス分類モデルとかにおいて、推定精度・推定性能の高いモデルを目指していました。推定性能が高いのと、ロバストなのとは違うんですか？

応化：広い意味では同じです。ただ、ロバストというのは、イレギュラーなことが起きたときでも推定性能が高い、って意味合いになります。

生田：イレギュラーなことって何ですか？

外れ値

応化：たとえば、外れ値です。

生田：あの、一つだけ他のデータと外れている値のことですか？

応化：そうです。下の図を見てみましょう。

生田：右上の点が外れ値ですね。

応化：はい。左のデータセットには外れ値はありませんが、右のデータセットには外れ値があります。今、それぞれのデータ分布の中心を求めることを考えましょう。

生田：平均値ですね！

応化：では、それぞれのデータセットの平均値を見てみましょう。

生田：あ、左の外れ値なしのデータセットにおける平均値と比べて、右の平均値は値が大きいですね。

応化：そうですね。右のデータセットは、平均値が１つの外れ値の影響を受け、大きくなってしまいます。このように、イレギュラーである外れ値があるかないかで値が変わってしまうのは、ロバストとはいえません。平均値は外れ値に対してロバストではないのです。

生田：平均値は外れ値に対してロバストではないのか！標準化 (オートスケーリング) とかでよく使ってたのに・・・。

応化：もちろん、外れ値がなければ平均値も問題ありません。ただ、平均値は外れ値の影響を受けやすいのが弱点です。

生田：わかりました。気をつけます。

応化：では、もう一度図を見てみましょう。中央値はどうなっていますか？

生田：外れ値なしのデータセットでも、外れ値ありのデータセットでも、同じような値です。

応化：そうですね。中央値は、平均値より外れ値の影響を受けにくいのです。つまり、中央値は平均値より外れ値に対してロバスト、といえます。

生田：中央値バンザイ！

応化：標準偏差は、平均値からの偏差でしたね。そういうこともあり、標準偏差も外れ値の影響を受けやすく、外れ値に対してロバストではないのです。

生田：え！じゃあどうすればよいのですか？

応化：平均値に対する中央値のように、標準偏差に対して中央絶対偏差があります。中央絶対偏差は、標準偏差より外れ値に対してロバストです。

生田：どのように中央絶対偏差を計算するんですか？

応化：すべてのデータから中央値を引き、すべて絶対値を取り、それらの中央値が、中央絶対偏差です。ただ、標準偏差のかわりに使うときは、中央絶対偏差に1.4826をかけて補正する必要があります。

生田：わかりました！平均値のかわりに中央値を使って、標準偏差のかわりに中央絶対偏差の1.4826倍を使えば、外れ値に対してロバストな標準化 (オートスケーリング) ができるってことですね。

データセットをそのまま解析してエラーになってしまう方へ、基本的なデータの前処理方法を紹介します！

データセットを読み込んだあとに、まずやったほうがよい基本的なデータの前処理についてです。最低限、この前処理は行いましょう！とりあえずオートスケーリング (標準化) しましょうとか、いやいやその前に情報量のない変数は消しておきましょうとか...

応化：その通りです！ちなみに、そのようなロバストな標準化を行った後の主成分分析 (Principal Component Analysis, PCA) をロバスト主成分分析 (Robust PCA, RPCA)、部分的最小二乗法 (Partial Least Squares, PLS) をロバストPLS (Robust PLS, RPLS) とよんだりします。