バイアスとバリアンス、スーパーマーケットの品物の値段当て対決から概要を理解しよう!

ラヴィット!の企画の一つに値段当て対決があります。チーム対抗戦であり、1チーム5人のタレント・芸人の方々で構成され、チームごとに1人ずつ、コンビニエンスストアやスーパーマーケットにおける値段を伏せられた様々な品物について、値段を推測しながら選択し、合計1500円や3000円を目指します。最後に正解の値段が開示され、合計が1500円や3000円に最も近いチームが勝利となります。

ここから先は、ラヴィット!で実際に起きたことではなく、仮想的な内容です。

 

バリアンスが大きい状況

東京の芸人の方々5人が、東京のスーパーマーケットにおけるピーマン、人参、納豆、ドレッシング、アイスクリームの値段を推定しました。結果は以下の表の通りです。

5人ともスーパーマーケットには行き慣れていないためか、品物ごとに値段を大きく外しています。このように、実際の値に対して推定値がバラバラになってしまう時、バリアンスが大きいと言います。

 

バイアスが大きい状況

栃木の専業主婦・専業主夫の方々5人が、上と同様に東京のスーパーマーケットにおけるピーマン、人参、納豆、ドレッシング、アイスクリームの値段を推定しました。結果は以下の表の通りです。

5人ともスーパーマーケットに行き慣れているため、ある程度正しく値段を推定できています。バリアンスは小さいです。しかし、栃木のスーパーと比べて東京のスーパーは若干値段が高いことから、品物それぞれ同じ傾向の誤差が生じています。このように実際の値に対して推定値がある傾向を持って大きく外れてしまう時、バイアスが大きいと言います。

 

バリアンスが大きいけどバイアスが小さい

改めて東京の芸人の方々の結果を見ると、合計は意外と合っていることがわかります。スーパーにはあまり行かないものの、東京には住んでいるため、東京の全体的に価格が高い傾向を知っているものと考えられ、バイアスは小さいです。

 

ちなみに、栃木の芸人の方々5人が同じように推定したら、バイアスもバリアンスも大きい状況になっていたでしょう。

 

機械学習でモデルを構築する際は、バリアンスもバイアスも小さくすることが望ましいです。分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築する際、x として y を説明するための情報が過不足なく含まれており、サンプルに多様性のあるデータセットを用いてモデルのパラメータをフィッティングすることが求められます。

構築したモデルに対し、新しいデータを入力した時にバイアスが大きかったり、バリアンスが大きかったりする際は、x やデータセットに立ち返って、その要因を考えることでバイアスを小さくしたり、バリアンスを小さくしたりする方法が得られるかもしれません。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました