説明変数 x と目的変数 y の間で回帰モデル・クラス分類モデル y = f(x) を構築して、構築されたモデルを用いて x の値から y を予測したり、逆に y の値が目標値になるように x の値を設計したりします。このような数理モデルが、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスで活用され、分子設計や材料設計やプロセス設計などが行われます。
このような研究分野において共同研究やコンサルティングをしていると、今あるデータセットを解析するのにどの回帰分析手法を使えばよいのか?、どのクラス分類手法を使えばよいのか?、といった質問がよくあります。「分子のデータとして、物性と化学構造のサンプルを収集しまして、これから解析しようと思いますが、今回のケースではどの手法を用いたらよいでしょうか?」 「材料のデータを追加で収集して、サンプル数を増やしましたが、次はどの手法を使うとよいでしょうか?」 といったような質問です。
結論からいいますと、その情報だけでは分かりません。どの手法にも、最良の手法になる可能性があります。例えば x が一つで y の間の関係が線形関係か非線形関係か、くらい単純なものであれば、選ぶことはできます。しかし実際は、線形関係か非線形関係かだけでなく、x はたくさんあり数も変わりますし、x の間に相関関係があったり、非線形関係もあったりします。サンプルの数、x の特徴量の数、x と y の関係、x 間の関係などによって適した手法が異なりますが、それらがすべて明確になることは難しいです。x と y の間の関係をはじめとするデータセットの全容が分からない中で、最適な手法を選ぶことは難しいです。そもそも、もしデータセットのすべてがわかっていれば、機械学習でモデルを構築することなく、物理モデルを構築できるわけです。大前提として物理モデルを構築できない中で、(仕方なく) 機械学習でモデル y = f(x) を構築するわけです。どの手法が今のデータセットに適しているか、あらかじめ判断することは難しいです。
そのため幅広い選択肢の中から最良の手法を選択することが必要になります。ただ、手法によってはオーバーフィッティングを引き起こしやすい手法もあります。よいモデルと判断されていた手法が、実はオーバーフィッティングしただけだった、といったことは避けなければなりません。そのためモデルを選択する際の評価については適切にする必要があります。
さらに言えば、例えばダブルクロスバリデーションで最良の手法が選ばれたとしても、さらにサンプルを追加したり、特徴量を工夫したりすれば、最良の手法が変化する可能性があります。例えば、ある限られたデータ範囲では x と y の間が線形だったのが、サンプルを追加することで非線形になる場合もあります。もちろんそれ以外の要因によっても適切な手法は変わりますので、サンプルや特徴量などが増えたり減ったりした場合は、改めて適切な手法を選択する必要があります。
事前にデータセットと適切な手法の間の関係はわからないため、適切に評価しながら選択する必要があります。少し面倒な作業にはなってしまいますが、データセットが変わりましたらその都度最良の手法を検討するようにしましょう。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。