分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
基本的に y が定性データのときはクラス分類手法を用いてモデルを構築し、y が定量データのときは回帰分析手法を用いてモデルを構築します。もちろん回帰分析からクラス分類に変換したり、クラス分類から回帰分析に変換したりもできます。これらのメリットやデメリットについてはこちらをご覧ください。
一方でクラス分類のような定性データの y を含むデータセットであっても、回帰モデルで予測したような結果を得たいこともあるかと思います。例えば異常検出や異常診断において、データセットとして得られるデータは、y が 0 の正常データと y が 1 の異常が発生した際のデータになると思います (異常発生時のデータがない状況もあります)。
一方で、プロセス状態が正常から異常に推移する途中の、y の値でいえば 0.5 や 0.7 のような状況も、予測したいことがあります。このときは、各クラス分類手法もしくは判別手法によって構築したモデルで、y が 1 になる確率を予測させるとよいです。これにより、本来は y が 0 (のクラス) と予測されていたものが、実際は 0.4 で異常になりつつあるプロセス状態なのか、0.1 でまだまだ正常な状態なのかを見分けることができます。また、y が 1 (のクラス) と予測されていたものが、実際は 0.9 でほぼ完全に異常なのか、0.6 でこれから異常に推移しつつあるプロセス状態なのかも予測できます。
ちなみに、Datachemical LAB には、クラス分類において上記の確率を予測する機能もあります。他クラス分類でも各クラスの確率を予測可能です。
クラス分類において、0 や 1 のサンプルだけでなく、0.4 くらいや 0.7 くらいのサンプルといったような、定量性が少しあるデータを準備できることもあるかと思います。例えば異常検出や異常診断において、正常データだけでなく、0 というよりは少し 1 よりの 0.2 くらいの状態であったり、1 よりは 0 よりの 0.5 くらいの状態であったり、というようなデータです。このような定量性が少しあるデータセットでは、クラス分類ではなく回帰分析をするとよいでしょう。もちろん、x と y の間の関係を線形で表現できるとは限りませんので、非線形手法を含めて回帰分析の検討をしましょう。これにより y の情報 (0, 1 だけでなく 0.2 や 0.5 といった情報) を余すことなく、最大限活用できます。
もちろん回帰分析をするときにベストなのは、y を具体的に定量的にデータで表現することです。ただ、それができない時にも、ある意味で人の感覚になってしまうかもしれませんが、少しでも定量性を出して回帰分析をすることで 0 から 1 の間における x と y の間の関係をモデル化することが可能です。このモデルにより、y を定量的に、すなわち準備したデータの中間的な値として予測できます。さらには、そのモデル化に重要な x を検討することも可能です。ぜひご検討ください。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。