太田亨 著, 「組成データ解析入門―パーセント・データの問題点と解析方法―」, 朝倉書店, 2023
朝倉書店: https://www.asakura.co.jp/detail.php?book_code=12288
Amazon: https://www.amazon.co.jp/dp/4254122888
組成データのように、0 から 1 まででいくつかの和が 1 になるようなデータを扱う際の注意点と対処法を学べる本です。以下は、朝倉書店のウェブサイトにおける内容紹介の引用です。
パーセント(%),ppm,ppbなどで表される組成データを解析する際の問題点を整理。岩石の化学組成や血液の成分などさまざまな場面で使用されるにもかかわらず,不適切な利用も少なくない。図表を用いてビジュアルに解説,解決方法を提示。Rによる解析方法も紹介。〔内容〕定数和制約/対数比解析/単体解析/絶対量変動。
ケモインフォマティクス、マテリアルズインフォマティクス、プロセスインフォマティクスにおいて、主に説明変数 x の特徴量として、組成のデータを用いることがあります。組成データは、0 から 1 の範囲で値を取り、サンプルごとに成分ごとの組成の和が 1 になるという制約があります。その制約のため、制約のない特徴量と比べて、扱いを注意する必要があります。例えば、成分間の相関関係です。合計が 1 になるという制約があるため、ある成分の組成が大きくなると、別の成分の組成が小さくなる、といった負の相関関係が潜在的に存在します。このため、多重共線性にも関係していますが、例えば最小二乗法による線形重回帰分析で構築されたモデルの (標準) 回帰係数を x から目的変数への寄与度とするのは危険、ということになります。
このような組成データ特有の注意点やその対策方法について、こちらの本で学ぶことができます。
「組成データ解析入門―パーセント・データの問題点と解析方法―」 では、データ解析・機械学習に関連する内容として、主に以下のことを学べます。
- 組成データの定数和制約、定数和制約の研究例、組成データの空間分布、変数の数と自由度、組成データの相関係数、組成データの確率分布
- 対数比解析、実空間への写像、データの正規性、加法対数比、中心対数比、等長対数比、0値や欠損値の扱い、0値置換、乗法置換、isometric logratio transformation
- 単体解析、組成データの信頼領域、組成データの回帰分析、組成データの多変量解析、組成データの演算
- 絶対量変動法、WLS法、変動係数法
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。