分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
モデルの予測精度を向上するため、そしてモデルを解釈するため、ドメイン知識に基づいて新たな x を検討・設計して導入することが行われます。特徴量エンジニアリングと呼ばれることもあります。材料・分子・やプロセス、そして実験系の背景に基づいて、y と関係すると考えられる x を新たに追加することで、モデルの予測精度を向上できたり、シンプルで解釈性のあるモデルを構築できたりします。
この新たな x の検討・設計をするときの考え方として、重要なポイントは次の3点です。
- 誰かがベストな x を知っているわけではない
- 不要な (余分な) x が含まれていても、重要な x のみを選択する機械学習法がある
- 重要な x が含まれていなければ、どんな機械学習法でも良好なモデルを構築できない
もちろん、100% 無意味であることが事前に分かっていれば、それを x に追加する必要はありません。しかし、y と関係している可能性が 1% でもあれば、x に追加すべきです。そのような特徴量・記述子をどんどん提案していきましょう。というのも、y を説明するために必要な情報が x に含まれていなければ、どんな機械学習法を用いたとしても、良好なモデルを作ることはできません。一方で、仮に、追加した x が y と全く関係なかったとしても、機械学習によりそのような (結果的に) 不要な x を自動的に削除する方法があります。そのため、x に追加するか少なくとも迷ったときは、x に追加してください。
x の検討は、人の知識・知見・経験・感性を発揮する有効な場です。もちろん、1人の知識・知見・経験・感性だけでは y のすべてを説明できないかもしれませんが、これまでにすでに提案されていた x や他の方が提案した x と組み合わせることで、より詳細に y を表現できる可能性があります。ブレインストーミングのときのように、自分の意見を躊躇することなく、そして他の人の提案を否定することなく、どんどんアイデアを出していただければと思います。ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスを進める中で、x の検討は非常に面白い研究内容の一つです。ぜひ楽しんで x を検討していただき、モデルの予測精度の向上を目指してしていただければと思います。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。