データ解析前における、説明変数(特徴量・記述子)の決め方・選び方の方針

目的変数 Y と説明変数 (特徴量・記述子) X との間に、クラス分類や回帰分析によってモデル Y = f(X) を構築します。モデルを構築するためにはデータセットが必要ですので、Y, X を決めてからサンプルを集めなければなりません。モデルを作るときには目的があるはずですので、もちろん Y として適切に数値化もしくはカテゴリー化する必要があるかもしれませんが、基本的に Y は決まっていると思います。

一方で X に関しては、解析者が設定する必要があります。ちなみにこれは、モデルを構築する前にデータセットを準備するときのお話です。ここでは X を作ったり、選んだりする方針を 2 つお話しします。

1 つ目の方針として、予測精度の高いモデルを構築できる X を準備します。Y を的確に説明できるモデルを構築する X ほどよいわけです。モデルの予測精度や予測精度の評価に関しては、こちらをご覧ください。

モデルの予測精度は、目的変数Yの誤差だけでなくモデルの適用範囲を含めて議論しましょう

新型コロナウイルスの影響もあり、セミナーや講演会はオンラインで行うようになってきました。対面でやるときも、オンラインでやるときも、だいたいどこでも聞かれる質問に、サンプル数をどれくらい増やせば十分ですか？いくつのサンプルを集めれば十分に予測...

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

例えば実験系において、サンプルごとの Y の値の違いを説明するための実験条件は、X に入れたほうがよいです。実際はすべてのサンプルで同じ値になっている実験条件以外は、X に追加しておくとよいでしょう。

ちなみに、X を決める時点ではモデルの予測精度が高いかどうかはわかりません。少しでも Y と関係していると考えられる特徴量は、X に入れておきましょう。ただ、絶対 Y と関係のない特徴量は、事前に除いておくとよいです。なぜなら、X が多いほど偶然の相関が起こりやすく、モデルがトレーニングデータにオーバーフィットしやすいためです。

y-randomizationで過学習(オーバーフィッティング), Chance Correlation(偶然の相関)の危険度を評価！

回帰モデル・クラス分類モデルの評価のなかで、yランダマイゼーション (y-randomization) についてです。y-scrambling と呼んだりもします。やることは簡単で、目的変数 y の値をサンプル間でシャッフルして、回帰モ...

もう一つの方針として、Y の値を予測するとき値が分かるかどうかです。モデル Y = f(X) に X の値を入力することで Y の値を予測できますので、Y の値を予測したいサンプルにおいて X の値が必要です。たとえば分子設計のとき、分子の化学構造から計算できる特徴量であれば、化学構造を生成した後にその特徴量を計算できますので、Y の値の予測に用いることができます。しかし、分子の物性のような特徴量は、分子を合成してその物性を測定しないと特徴量の値が得られませんので、分子設計をするときの X としては適切ではありません。

材料設計のとき、原料の組成や反応温度・反応時間などの実験条件であれば、解析者が値を設定できますので、X として用いることはできます。しかし、例えば高分子の分子量や分子量分布など実際に重合して測定しないと値が出られない特徴量は、材料設計において X として使用するのは適切ではありません。

ソフトセンサーにおける目的の一つに、Y の値を迅速に予測することがあります。温度・圧力などのようにセンサーによってリアルタイムに値が得られる特徴量であれば X として用いいることができますが、測定に時間がかかるような特徴量の場合は、測定時間の分、Y の値の予測に時間がかかってしまいますので、適切ではありません。

以上のように、回帰モデル・クラス分類モデルの予測精度だけでなく、Y を予測するときに値が得られるかどうか、という観点でも X を決めたり選んだりするとよいと思います。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。