異常値を含む複数回の実験データからでも、データを削除することなく特性の平均値とばらつきを高精度かつ安定して予測できる機械学習手法を開発しました！！[日東電工＆金子研の共同研究論文]

日東電工と金子研における共同研究の成果の論文が Analytical Sciences に掲載されましたので、ご紹介します。タイトルは

Robust machine learning and ensemble learning approach to predict variation in experimental data for multiple measurements and anomalies

です。これは共同研究として日東電工の方々と一緒に研究した成果であり、修士卒の酒井優太さんが取り組んだ研究の成果です。

化学分野における材料開発や製品設計では、実験条件などの説明変数から化合物の特性や活性を予測するために、機械学習が広く活用されています。一般的に、同一のサンプルに対して複数回の測定が行われた場合、目的変数は平均値として扱われます。しかし、平均値のみを用いてモデルを構築してしまうと、個々の製品における特性のばらつきを予測できなくなるという問題がありました。この課題を解決するため、過去の研究では、データセットからサンプルごとに測定値をランダムに抽出して複数のサブデータセットを作り、各々から構築した複数のモデルを用いることで、ばらつき自体を予測する手法が提案されていました。しかし、この従来手法には、測定機器の不具合や人的ミスなどに起因する異常値が含まれていた場合、モデルが異常値の影響を強く受けてしまい本来のばらつきとは異なる結果を出力し、予測精度が低下してしまうという弱点がありました。

本研究では、目的変数に異常値が含まれていても予測精度が低下しない、堅牢なばらつき予測手法を提案しています。具体的には、まず従来の手法よりも多い数である1000個のサブデータセットを作成し、それぞれに対して機械学習モデルを構築します。次に、ダブルクロスバリデーションを用いて各モデルの平均絶対誤差を計算し、予測精度を定量的に評価します。そして、構築したすべてのモデルを使用するのではなく、予測誤差が小さく精度の高い上位100個のモデルのみを厳選して最終的な予測に用いるというアプローチを採用しました。これにより、異常値を含むデータで構築されてしまった予測精度の低いモデルが自然と排除されるため、信頼性の高い予測が可能になります。

提案手法の有効性を検証するため、日東電工株式会社から提供された実際の製品データセットを用いて評価を行いました。このデータセットには、異常値のない膜厚のデータと、意図しない明らかな異常値が三つ含まれるヘイズ（光散乱強度）のデータが含まれています。検証の結果、異常値のない膜厚のデータにおいて、提案手法は従来手法よりも高い精度で平均値とばらつきの範囲を予測できることが確認されました。さらに、異常値が含まれるヘイズのデータにおいても、提案手法は異常値による過大なばらつきの評価をしっかりと抑制し、異常値を事前に手動で取り除いてから構築したモデルと同等以上の高い予測精度を示しました。

以上の結果から、大量の候補から高精度なモデル群を厳選するという本手法は、実際の実験データに頻繁に見られるばらつきや異常値に対して非常に堅牢であることが実証されました。異常値を含むサンプルを手作業で削除する手間をかけずに、平均値とばらつきの両方を正確に予測できる本手法は、データセットの精度向上に大きく貢献することが期待されます。

興味のある方は、ぜひ論文をご覧いただければと思います。どうぞよろしくお願いいたします。

以上です。

質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。