最後に決定するのは人、データ解析・機械学習はあくまでサポート

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

適応的実験計画法として、次の実験条件を機械学習モデルに基づいて決めることがあります。y の目標が遠い時には、モデルの直接的逆解析やベイズ最適化に基づいて次の実験条件の候補を決めます。

[無料公開] 「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」の “まえがき”、目次の詳細、第１・２章

2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約２年経過した 2023 年 4 月 ...

この時、次の実験をするかしないかを決めたい時もあると思います。このまま実験を続ければ将来的に y の目標を達成し得るのか、このまま実験を続けても y の目標を達成できないのかを決めたい状況です。しかし、機械学習モデルだけではどちらかを決めることはできません。

ベイズ最適化においては、獲得関数が大きい実験条件の候補を探索します。獲得関数によっては、y の目標を達成する確率として定義されているものもあります。この獲得関数の値は非常に小さい値になることがあり、これは目標を達成する確率が非常に低いとされる候補しかない状況であることを意味しますが、獲得関数の値が0、すなわち可能性なしとなることはありません。もちろん、計算の都合上で値が 0 になることはありますが、厳密には 0 ではありません。このとき、目標を達成する確率が非常に低い中で、実験にかかる時間やコスト等を考慮して実験を続けるか否かを判断するのは人になります。

機械学習モデルで行っていることはあくまで推測、予測であり、100% 予測が当たる、もしくは100% 予測が外れるといったことはありません。機械学習モデルだけでは、今探索している領域において必ず目標を達成できるかどうかはわからず、究極的には実験条件の全ての候補を実験してみない限りはわからないと言えます。

構築した機械学習モデルを使うか否かも、最後の決定は人がすることになります。例えば、r²、RMSE、MAE、正解率、F値などはあくまでモデルの間で性能を比較するための指標であり、この値がいくつ以上であればモデルを使える、といった評価はできません。機械学習モデルを使用しない時の選択肢も踏まえながら、出てきた予測結果に基づいて、最終的には人が機械学習モデルを使用するか決めることになります。もしくは、機械学習モデルを使用するかどうかを決める基準を人が考案することもあります。

データの可視化やクラスタリングといった教師なし学習において、出てきた結果に基づいて人が考察する必要があるのはもちろんですが、上記のような回帰分析やクラス分類といった教師あり学習をする時も、最後の決定は人がする必要があります。あくまでデータ解析・機械学習はサポートとして、うまく活用して、対象の実験やシミュレーションの目的を達成するようにしましょう。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。