分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
金子研において、学生が研究室配属になった後は、新人研修として Python プログラミングを学んだり 色々なデータ解析・機械学習をしたりします。そして毎週、進捗の状況を報告してもらっています。その報告する資料の作り方として、データ解析・機械学習の結果は図表にしたり、図表からの違和感を大切にしたりすることは、こちらに書いた通りです。
他にも、結果を見た時に、なぜその結果になったのか、とことん突き詰めるようにしています。例えば、課題の中に、r2 の値がマイナスになり (正しく計算しても r2 が負になります)、それを改善する課題があります。
もちろん、やみくもにやって r2 を 0 以上にすればよいわけではありません。
r2 が負であった、ということそこで立ち止まらずに、なぜ r2 がマイナスになったのか、具体的に原因を突き詰めることが大事です。
なぜ r2 がマイナスになったのかを調べます。r2 は、ある式で計算された値であるため、何かの値によってマイナスになるような結果になるといえます。例えば、何か一つのサンプルの予測値が実測値と大きく異なっていることで r2 がマイナスになっていたときは、そのサンプルが何かを確認することが大事です。
さらには、なぜ予測値が実測値と大きく異なってしまったのか、ここでも原因を突き止めることが大事です。こうすることで、r2 がマイナスになったという表面的な結果に対して、本質的な原因にたどり着くことができます。その本質的な原因にたどり着ければ、その原因を改善することで、例えば実測値と予測値が近くなり、その結果として r2 がマイナスではなくなります。
このように、表面的な結果だけを見て、それを行き当たりばったりの方法で改善するのではなく、表面的な結果から本質的な原因を突き止めることで、本質的な改善策に繋がります。ぜひ、データ解析・機械学習の解析結果を見るときは、参考にしていただければと思います。
以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。