機械学習、特に教師あり学習をする際の特徴量データの準備の方針

シェアする

分子設計・材料設計・プロセス設計において、分子記述子や合成条件・製造条件やプロセス条件などの特徴量 x と物性・活性・特性などの目的変数 y との間でデータセットに基づいて教師あり学習により数理モデル y = f(x) を構築したり、構築したモデルを用いて y が所望の値をもつような x を設計したりします。x を的確に設計するためには、適切なモデルを構築する必要があります。x から正確に y を推定できたり、幅広い x の値を入力しても y を予測できたりするモデルです。

このようなモデルを構築するためにはデータセットが重要になります。もちろんサンプルを多く集めることも重要ですが、適切な特徴量 x を準備することも大切です。基本的な方針としては、y を説明できる x を準備することです。y と関係のない特徴量が x に紛れ込んでいても、機械学習の手法で何とかなる、例えば特徴量選択で不要で x を省くことができるかもしれませんが、y を説明するための情報がないと x にないと、y を的確に推定するモデルを構築することはできません。多くの特徴量を準備するとよいでしょう。

ただ、実験ノートや以前のエクセルファイルなどからサンプルを集めたり特徴量を準備したりするとき、データを増やすのにもコストがかかります。収集した特徴量で十分かどうかを確認するための一つの考え方として、すべての x で値が同じ 2 つのサンプルについて、y の値が同じになるかどうかを考えます。実際にそのようなサンプルがあれば、それに越したことはありませんが、具体的にそのような組のサンプルがなくても、類似したサンプルはあったり、経験則で考えることはできたりすると思います。例えば、x として考慮している合成条件で材料を合成したときに、物性や活性として y の値を再現できるかを考えます。再現できない、もしくは再現できないと考えられる場合、その y の変化を説明するための特徴量が追加で必要ということになります。分子でも、記述子の値がすべて同じであるにもかかわらず、y の値が異なるような化合物の組み合わせがあるとき、それらの y の値の違いを説明するための記述子は何かを考えます。

以上のような考え方で、記述子を開発したり、特徴量データを集めたりすることで、効率的にデータセットを準備できると思います。ご参考になれば幸いです。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする