金子研の研究、特に共同研究で難しいのは、データの収集の仕方・データの前処理・特徴量設計・モデルの逆解析・化学構造生成の5つです!

データ化学工学研究室 (金子研) では、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスに関する、いろいろな研究をしています。企業や大学・研究所との共同研究もしています。金子研の研究、特に共同研究をするときに、相手が難しいと感じ、金子研の工夫が必要なのは、主に以下の段階です。

 

  • データの収集の仕方
  • データの前処理
  • 特徴量設計
  • モデルの逆解析
  • 化学構造生成

 

データの収集の仕方

基本的には、縦にサンプルを並べて、横に変数 (パラメータ) を並べたような csv ファイル (エクセルのファイル) を準備することになります。ただ場合によっては、キレイには整理できなかったり、ところどころ値がなかったり (穴あきデータだったり)、一つの数値で表現できないデータが存在したりします。たとえば、一部のみに時系列のデータがあると、基本的にはキレイには整理できません。こんなとき、どのように収集してまとめれば成果が出やすいのか、金子研の腕の見せ所です。

 

データの前処理

エクセルでデータをそろえたら、基本的にはすべてのデータを用いますが、研究目的によっては、すべてのデータを用いないほうが逆によい場合もあります。研究目的を達成するためのデータ解析をするとき、どのデータを用いるべきで、どのデータは用いないべきか、工夫して検討する必要があります。

 

特徴量設計

用いるデータが決まって、たとえば説明変数 X と目的変数 Y との間で回帰モデル・クラス分類モデル Y=f(X) を構築するとします。このとき、予測精度の高いモデルを構築するために、X をどうすればよいのか、検討しなければなりません。特徴量の設計です。

画像であれば畳み込みニューラルネットワークでなんとかなるかもしれませんが (ただ実は、畳み込みニューラルネットワークのハイパーパラメータを設計しなかったり、画像によってはあまり使えなかったりしますので注意です!)、他のデータでは上手くいかなかったりも。たとえばバッチプロセスにおいて、バッチごとに時系列データから Y を説明するための有効な特徴量をどうすればよいのか、化学構造から物性・活性を推定するためにどのような特徴量を計算すればよいのか、といった工夫によって、モデルの予測精度を向上させることもできます。

どのような特徴量にすれば、予測精度の高いモデルを構築できるか、特徴量の組合せを選択することも含めて、金子研では検討しています。

 

モデルの逆解析

モデルを構築できたら、目標の Y の値になるような、X (の組合せ) を設計します。モデルの逆解析です。

回帰モデル・クラス分類モデルの逆解析~目標のY(物性・活性など)を達成するためのX(説明変数・記述子・特徴量・パラメータ・入力変数)とは?~
回帰モデルやクラス分類モデルが得られたあとの話です。 よくやるのは、説明変数 (記述子・特徴量・パラメータ・入力変数) X の値を回帰モデルやクラス分類モデルに入力して、目的変数 Y の値を推定することです。これをモデルの順解析とよびます。...
モデルの逆解析をするときのチェックリスト
回帰モデルやクラス分類モデルを構築したら、モデルの逆解析を行うことで、目的変数の目標値を達成すると考えられる説明変数の値を推定できます。ただ、モデルの逆解析をするときは、いくつか注意点がありますので、チェックリストとしてまとめました。モデル...

 

ただ、X の組合せの候補は無限にあります。効率的に X を生成するには、乱数が必要です。乱数を用いると、X としてありえない候補も出てきてしまいます。X の上限下限内にしても、他の X との組合せでありえない候補もあります。

またモデルの適用範囲 (Applicability Domain, AD) [詳細はこちら] の完全に外では、Y の推定値を信用することできませんので、AD の中に X の候補を生成する必要があります。

もちろん、極端に内挿ばかりでは面白くありません。ギリギリの外挿をねらうための X の候補をどう生成するか、工夫する必要があります。

 

化学構造生成

モデルの逆解析によって得られた X の候補がそのまま解になればよいですが、たとえば分子設計の場合は、X だけ得られても意味はなく、所望の Y の値をもつと考えられる化学構造を獲得しなければなりません。望ましい特徴をもった化学構造をどう生成するか、検討する必要があるわけです。

 

 

特に金子研との共同研究では、相手方の企業や大学・研究所において、以上の項目について難しいと感じているようです。逆にいえば、上の項目において難しいと感じている方は、金子研のいろいろな知見が活用できるかもしれません。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました