目的変数yは特徴量xで説明し得ることが大前提(理論的でも、経験的でも、研究者の勘でも(!?)OK)

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。

x と y のそろったデータセットがあれば、機械学習によりモデル y = f(x) を構築できます。しかし、そのモデルに意味があるか、x から適切に y を予測できるかどうかはまた別の話です。x から予測したい、予測できたら良いな、という思いだけで、y を設定してしまうと、適切なモデルを構築できない可能性が高いため注意が必要です。

データ解析・機械学習でできることは、本来 y と x との間に何らかの関係がある場合に、まだその関係は不明ですが y と x のそろったデータはあるときに、その関係を数式の形 (モデル) で表現することです。元々 y と x との間にどんな関係もなければ、たとえデータセットを用いて機械学習で数式として表現したとしても、それは意味のない数式です。

もちろん、いつも x と y の間に理論的な関係が明確になっているわけではありません。実験したり製造したりしている人の経験だったり、時には研究者の勘だったりでも問題ありませんので、本来 y と x との間に何らかの関係があると考えられる場合においてのみ、機械学習でモデル化するようにしましょう。

例えば、実験条件 x と実験後に得られた物質の物性 y との間に何らかの関係があると考えられ、機械学習でモデルを構築したとします。これは問題ありません。一方で、実験条件が同じ時に物性がどれくらいばらつくか予測したいと考え、実験条件を x、物性のばらつきとして物性を3回測定したときの分散を y として機械学習でモデルを構築したらどうでしょうか。大事なことは、本来、実験条件と結果のばらつきとの間に本質的な関係があると考えられるかどうかです。実験条件にこんな傾向があるときに物性の測定結果は変わりやすい、といった経験などがあれば OK ですが、そうでなければ、別のアプローチでモデル化する必要があります。

(「別のアプローチ」として、実験条件から物性のばらつきを考慮してモデル化した結果もあります↓。論文は投稿中です。)

Yuta Sakai, Shota Horikawa, Kitaru Suzuki, Mamoru Aizawa, Hiromasa Kaneko, Prediction of bone formation rate of artificial bone by machine learning considering variation of experimental results, Bioceramics 33, Solothurn, Switzerland, October 18, 2023.

 

一つの考え方として、(本来 y と x との間には関係がなさそうでも) 機械学習でモデルを構築してみて、予測精度の良し悪しでモデルに意味があるかどうか判断する、と考える人もいるかもしれません。しかし、特にサンプルが少ないとき、ダブルクロスバリデーション等の高度な方法を用いたとしても、モデルの予測精度の評価を完璧にできるわけではありません。

[無料公開] 「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」の“改訂版の発行にあたって”、詳細な目次、第8章の一部
2023 年 8 月 30 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門(改訂2版)」が出版されました。オーム社: Amazon: こちらは、以前に出版した書籍 「化学のための Pythonによるデータ解析・機...

 

例えば偶然の相関によって、仮に y と x との間には何も関係がなくても、テストデータの r2 が高くなってしまったり、正解率が高くなってしまったりする危険があります。

y-randomizationで過学習(オーバーフィッティング), Chance Correlation(偶然の相関)の危険度を評価!
回帰モデル・クラス分類モデルの評価のなかで、yランダマイゼーション (y-randomization) についてです。y-scrambling と呼んだりもします。やることは簡単で、目的変数 y の値をサンプル間でシャッフルして、回帰モデル...

 

データ解析・機械学習に全て頼るわけではなく、y は x で説明し得るかどうか、理論的でなくても経験的でも研究者の勘でも構いませんので、考えてデータ解析・機械学習をするようにしましょう。

 

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました