藤井宏行, 「エンジニアのための実践データ解析」, 東京化学同人, 2005
東京化学同人: http://www.tkd-pbl.com/book/b16314.html
Amazon: https://www.amazon.co.jp/dp/4807905899
もともとは化学工学会の学会誌に連載されていた “ケミカルエンジニアのための統計的品質管理入門” の内容を加筆修正された本です。学生のころから何回も読み返している本ですが、今回改めて読んでみて、研究室の学生たちにぜひ読んでもらいたい!、と思いました。以下は、東京化学同人における内容紹介の引用です。
統計的な考え方をベースにしつつも実際にデータを扱うときによく出会う問題や陥りがちな落とし穴に重点を置いて、わかりやすく解説する。
こちらの本では、化学データや化学工学データのいろいろな具体例を出しながら、統計やデータ解析の内容はもちろんのこと、どうして統計やデータ解析をやるのか、統計やデータ解析をやると何がうれしいのか、といったデータ解析の理由付けもあります。基本的な統計やデータ解析の内容ではありますが、ここから機械学習をやる上でも本質的な内容であり、実際にデータ解析をおこなう方はぜひ読んでいただくとよいと思います。
こちらの「統計でウソをつく法」の本でもお話ししましたが
特にサンプルが少ないとき、無意識にウソをついてしまう危険があります。「エンジニアのための実践データ解析」を読めば、少ないサンプルのときによい結果が出ても、警戒して結果を解釈することになると思います。また相関の発生のメカニズムに関しても記載されており、これを見ると、統計的なモデル、例えば線形回帰モデルの相関係数を解釈することの難しさが分かるはずです。本の名前にある「実践データ解析」の通り、これからデータ解析を実践する方に、大いにお勧めできる本です。
「エンジニアのための実践データ解析」 では、データ解析・機械学習に関連する内容として、主に以下のことを学べます。
- データのばらつき、変動要因、特性要因図、相関、散布図
- 平均値、標準偏差、分散、中心極限定理、自由度、正規分布
- 平均値の揺らぎ、t分布、ヒストグラム、正規確率プロット
- 対数正規分布、幾何平均、算術平均、、レイリー分布、マクスウェル分布、ベータ分布、指数分布、ガンベル分布、ワイブル分布、ガンマ分布
- 変数変換、Box-Cox変換、ロジット変換
- 分散分析、F値、p値
- 相関係数、母相関係数、サンプル相関係数、相関係数のばらつき、相関発生のメカニズム、相関分析、相関係数の信頼区間
- 単回帰分析、最小二乗法、決定係数の信頼性、重回帰分析、オーバーフィティング、クロスバリデーション、ジャックナイフ法
- 実験計画法、直交表
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。