ダレル・ハフ 著, 高木秀玄 訳, 「統計でウソをつく法―数式を使わない統計学入門」, 講談社, 1968
講談社: https://bookclub.kodansha.co.jp/product?item=0000128748
Amazon: https://www.amazon.co.jp/dp/4061177206
統計学の基礎を学べるブルーバックスの本です。1968 年に発行され、長年の間読まれています。以下は、講談社のウェブサイトにおける内容紹介の引用です。
世の中には統計が氾濫している。「平均」とか「相関関係」とか言って数字やグラフを示されると、怪しい話も信じたくなる。しかし、統計数字やグラフは、必ずしも示されている通りのものではない。目に見える以上の意味がある場合もあるし、見かけより内容がないかもしれないのだ。統計が読み書きの能力と同じぐらい必要になっている現在、「統計でだまされない」ためには、まず「統計でだます方法」を知ることが必要だ!
だまされないためには、だます方法を知ることだ!
かの有名な英国の政治家ディズレーリは言った――ウソには3種類ある。ウソ、みえすいたウソ、そして統計だ――と。確かに私たちが見たり聞いたり読んだりするものに統計が氾濫しているし、「平均」とか「相関関係」とか「トレンド」とか言って数字を見せられ、グラフを示されると、怪しい話も信じたくなる。しかし、統計数字やグラフは、必ずしも示されている通りのものではない。目に見える以上の意味がある場合もあるし、見かけより内容がないかもしれないのである。私たちにとって、統計が読み書きの能力と同じぐらい必要になっている現在、「統計でだまされない」ためには、まず「統計でだます方法」を本書によって知ることが必要なのである!
統計では、データの扱い方やデータの解釈の仕方によって、簡単にウソをつくことができます。この本では、統計でだます、統計でウソをつく方法を通して、ウソにだまされないようにすること、そして自分で自分にウソをつかないようにすることを学べます。
ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスにおいては、ビッグデータとはほど遠い、とても少ないサンプルのデータセットを扱うことが多くあります。サンプルが少ないときは、特に (意識的にも無意識にも) ウソをつきやすい状況です。ウソをつかないように気を付けて、解析しなければなりません。
少ないサンプルをいろいろ解析したとき、結果が悪いだけでしたら、別の方法を探求したり、サンプル数を増やしたり、諦めたり、といったことになり、(もちろん残念ですが) 被害はそれほど大きくありません。しかし、自分で気づかずウソをついており、解析結果がよかった場合には、その結果を信じて次の実験や解析などに移ってしまい、被害が大きくなってしまう可能性があります。そのため少ないサンプル数や統計の限界をしっかりと把握しておき、自分で自分に嘘をつかないように気をつける必要があります。
本書はそのような統計の限界を知る一つの良書です。
「実験計画と分散分析のはなし改訂版-効率よい計画とデータ解析のコツ」 では、データ解析・機械学習に関連する内容として、主に以下のことを学べます。
- サンプルのかたより、平均値でだます、平均値と中央値と最瀕値
- 小さいサンプル数には注意、データ分布・値の幅で考える
- 結果の誤差を考える、確率で考える
- グラフの縦軸・横軸の幅に注意、値と図(絵)の大きさの関係に注意
- 割合に注意、基準に注意、絶対数で考える、比較で考える
- パラメータの定義に注意
- 相関関係と因果関係に注意
- 統計のウソを見破るカギ
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。