線形手法を使うべきか、非線形手法を使うべきか

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子や合成条件・製造条件・プロセス条件やプロセス変数などの特徴量 x と物性・活性・特性などの目的変数 y との間で数理モデル y = f(x) を構築したり、モデルに x の値を入力して y の値を予測したり、y の目標値を達成しうる x の値を設計したりします。このようなデータ解析・機械学習をする上で重要なことは、適切なモデルを構築することです。モデルの適用範囲 (Applicability Domain, AD ) が広いことを含めた予測性能が高いモデルを構築することが望まれます。

モデルを構築するとき、いろいろな手法 (回帰分析手法やクラス分類手法) があります。例えば回帰分析手法の例を挙げると、線形手法として OLS, PLS, リッジ回帰、LASSO, elastic net, SVR(線形カーネル), GPR (線形カーネル) など、非線形手法として SVR(ガウシアンカーネル), 決定木、ランダムフォレスト、ディープニューラルネットワークなどがあります。

データ解析・機械学習に関する手法・考え方・注意点のまとめ

データ解析に関するいろいろな手法を解説した記事や、データ解析をするときの考え方の記事をまとめました。興味のある内容がございましたら、ぜひリンクへ飛んでいただけたらと思います。pdfファイルやパワーポイント(pptx)ファイルは、自由にご利用...

今あるデータセット、特徴量 x、目的変数 y に合うモデル構築手法を選択することになります。一般的には、トレーニングデータとテストデータに分けて、トレーニングデータでモデルを構築してテストデータに対する予測精度を評価したり、ダブルクロスバリデーションで予測精度を評価したりします。

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 (Model validation)

いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法につ...

ダブルクロスバリデーション(モデルクロスバリデーション)でテストデータいらず～サンプルが少ないときのモデル検証～

回帰モデルやクラス分類モデルを検証するときの話です。モデルの検証一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ, ...

基本的には評価した結果が良好であった手法を使用することになります。ただ、AD の広さを考えたとき、x と y の関係が本質的に線形であれば、線形手法の方が AD は広くなります。そのため、x を設計して (特徴量エンジニアリングして)、例えば物理モデル・第一原理モデルによって y との関係が線形になるような x を作成して、x と y の間の関係を線形手法でモデル構築する方が AD は広くなります。

実際に y との間の非線形関係を x として表現して線形関係に持ち込むことで、その後のモデル構築において線形手法と非線形手法を比較すると、線形手法の方が AD が広がることは確認されています。