多重共線性の実践的で実質的な解決方法

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

モデルの予測精度を低下させうる要因の一つとして、多重共線性が知られています。多重共線性とは、xの間の相関関係が高い、つまり強い相関が存在する状態です。多重共線性を軽減するために、相関係数が高い変数の一方を削除したり、主成分分析やPLSなどにより次元削減を行うことがあります。

主成分分析(Principal Component Analysis, PCA)~データセットの見える化・可視化といったらまずはこれ!~
主成分分析(Principal Component Analysis, PCA)について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、PCAで何ができるか、どのようにPCAを計算するかが説明されています。pd...
部分的最小二乗回帰(Partial Least Squares Regression, PLS)~回帰分析は最初にこれ!~
部分的最小二乗回帰 (Partial Least Squares Regression, PLS) について、pdfとパワーポイントの資料を作成しました。データセットが与えられたときに、PLSで何ができるか、どのようにPLSを計算するかが説...

 

しかし、これらの対策だけではモデルの予測精度を十分に向上させることは困難です。重要なことは、多重共線性がモデルの予測精度を低下させる可能性のある要因の一つであるということです。すなわち、多重共線性がなくなれば必ずしもモデルの予測精度が向上するわけではなく、また多重共線性だけを解決すればよいわけでもありません。例えば、x と y の間の非線形関係、データセット内のノイズや外れ値など、モデルの予測精度を向上させるために考慮すべき他の問題も存在します。

では、どのように多重共線性と付き合えば良いのでしょうか?大事なことは、多重共線性の解決が目的ではなく、あくまで目的は、モデルの予測精度の向上、ということです。そのため、モデルの予測精度を適切に評価することと、評価されたモデルの予測精度が高くなるような手段を選ぶことが重要です。具体的には、モデル構築の方法 (回帰分析手法だけでなく、外れ値処理・特徴量選択などを含む) として A と B という方法があった時、A と B それぞれで構築したモデルのテストデータにおける予測精度を評価します。サンプル数が小さい時には、ダブルクロスバリデーションでモデルの精度を評価します。

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず~サンプルが少ないときのモデル検証~
回帰モデルやクラス分類モデルを検証するときの話です。 モデルの検証 一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ...

 

予測精度が高い手段を選択することで、多重共線性を解決したかどうかはさておき、予測精度向上という目的を達成したことになります。ちなみに、A, B に限らず C, D, … といった多くの方法で検討することで、結果的に、多重共線性をはじめとするモデルの予測精度の向上に向けた問題を考慮できている方法を選択できます。

もちろん、この方法で多重共線性を解決できたかどうかは分かりませんが、多重共線性がモデルの予測精度を低下させる可能性のある要因の一つであることを考えると、様々な方法でモデルの予測精度を評価し、評価後の結果が良好な方法を選択することが、モデルの予測精度の向上に向けた実践的で実質的なアプローチといえるでしょう。比較する方法の中に、多重共線性を解決する可能性のある方法も含めると、結果的にその方法でモデルの予測精度が向上する可能性もあります。

誤解を恐れずに言えば、様々な回帰分析手法やクラス分類手法を検討する方法の中に入れておくことで、特に多重共線性については気にしなくても構いません。様々な有効と考えられる手段の中から、今解析しているデータセットに合う手段を選択できることで、結果的に多重共線性は解消されています。多重共線性の解決を考えていたり多重共線性で悩んだりしている方がいたら、参考になれば幸いです。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました