Datachemical LABで欠損値補完ができるようになりました

Datachemical LAB をご利用いただいている方も増え続けており、嬉しい限りです。これまでご紹介させていただいた通り、Datachemical LAB を使用することで、データの前処理・データの可視化・回帰分析・モデルの逆解析・モデルの適用範囲・化学構造生成・(適応的)実験計画法・能動学習・ベイズ最適化・ソフトセンサー・異常検出などの、データ解析・機械学習が可能になります。

化学・化学工学分野におけるデータ解析・機械学習クラウドサービス「Datachemical LAB」
化学・化学工学分野におけるデータ解析・機械学習が、プログラミングなしでできるクラウドサービス「Datachemical LAB」を開発し、提供を開始しましたので、ご案内します。プレスリリースは以下をご覧ください。 Datachemical ...

 

そして Datachemical LABの機能を継続的に充実させています。ここでは、データの前処理として欠損値補完の機能が追加されましたので、ご紹介します。プレスリリースはこちらです。

 

Datachemical LAB のメニューにおける前処理に、欠損値補完があります。

 

分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と材料の物性・活性・特性や製品品質 y との間で数理モデル y = f(x) を構築します。Datachemical LAB を用いることで、いろいろな種類のモデル構築手法がある中で、対象のデータセットに合う最適な手法を自動的に選択したり、選択された手法で実際にモデルを構築したりすることができます。

そのため、モデルを構築するデータセットを収集することが重要になります。ただ、データを集めているときに、いろいろな理由で、サンプルごとに値が不明なデータ、すなわち欠損値が出てきてしまうことがあります。過去の実験ノートやエクセルのファイルに値が記載されていなかったり、昔に実施した実験ではそもそもそのパラメータの値を測定していなかったりなどです。また論文データを収集してデータセットにするとき、論文ごとに記載されている実験条件が異なると、欠損値が出てきてしまいます。欠損値があると、データセットとして準備するためには欠損値を含むサンプルもしくは特徴量を削除する必要があり、せっかくデータ収集したデータセットがもったいないです。

このような欠損値を含むデータセットしかない状況において、Datachemical LAB を用いることで特徴量間の関係を考慮した上で妥当な値を欠損値に補完することができます。例えばこちらのような欠損値を含むデータセットに対し、

 

Datachemical LAB の欠損値補完の機能を使用することで、ウェブブラウザ上でクリックするのみで、次のような補完されたデータセットを出力できます。

 

実際、3クリックで5秒以内に達成できました。

他にもこちらのようなデータセットに対し、

 

欠損値補完の機能を使うと次のようになります。こちらも3クリックで5秒以内です。

 

せっかくデータを収集してデータセットにしても、欠損値があるとそのサンプルもしくは特徴量を使用できないことになってしまうため、データセットの情報を落とさなければいけなかったのですが、上のような Datachemical LAB の補完機能を使用することで、収集したデータの情報をすべて最大限に活用することができます。

一つ注意することとして、欠損値補完は、欠損値にはいろいろな値が入る様々可能性がある中で、一つの選択 (特徴量間の関係を考慮した上で最も妥当な選択) をして値を補完しているため、補完した値が唯一の 「正解」 という訳ではありませんので、ご注意ください。そのため、(本当は値があるにもかかわらず) あえて欠損値にしておき、補完した値を実際の値と比較する、といったことには意味がありませんし、実際の値と合わないから問題というわけでもありません。イメージとしては、美味しいカレーを作るのにたった一通りの作り方しかないわけでなく、いろいろなカレーの作り方があり、どの作り方でも美味しいカレーは作れる、といったことでしょうか。

なお欠損値補完にはこちらの iGMR を拡張した方法を採用しております。

[Pythonコードあり] iterative Gaussian Mixture Regression(iGMR)で欠損値を補完しましょう!(目的変数があってもなくても構いません)
下図のような欠損値 (欠損データ) のあるデータセットがあるとします。穴あきのデータセットですね。 こんなときに、穴の空いたところである欠損値を補完する方法を提案します。上の図のようなデータセットを下図のようにできます。 たとえば、論文や特...

 

金子研究室でも実績がある方法であり、安心してご利用ください。ぜひ欠損値補完を含めたDatachemical LAB のご検討のほどよろしくお願いいたします。

興味がありましたら、以下のウェブサイトからお問い合わせいただけますと幸いです。

https://www.datachemicallab.com/

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました