[法人向け] 化学・材料・製造業のデータ解析・機械学習を、検討だけで終わらせず実務につなげる5つの支援をはじめます！

企業の方から、データ解析・機械学習に関して、以下のようなご相談をいただくことがあります。

社内にデータはあるが、何から始めればよいかわからない
機械学習に向いている課題なのか判断できない
とりあえずモデルを構築したが、そのあと何をすればよいかわからない
実施したものの、実際の研究・開発・製造には活用できていない
データ解析・機械学習を担当する人が社内に一人しかいない
社員にPythonや機械学習を勉強してもらったが、自社の課題を解析するところまで進まない
自社や他社が構築した機械学習モデルを、本当に信用してよいのかわからない

どれも、よくわかります。

データ解析・機械学習では、回帰モデルやクラス分類モデルを構築すること自体が目的ではありません。

たとえば、

新しい分子や材料の候補を提案する
実験回数を減らす
よりよい実験条件・製造条件を提案する
製品の品質を推定する
プロセスの異常を検出する
研究者・技術者の意思決定を支援する

といったことが本来の目的です。

予測精度の高いモデルを構築できても、そのモデルを活用して次の候補を提案できなければ、研究・開発は前に進みません。逆に、モデルの予測精度がそれほど高くなくても、適切な使い方をすることで、実験や製造に役立つこともあります。

そこで、法人向けに以下の４つの支援を行うことにしました！

データ活用・AI／MI実装診断
外部インフォマティクス推進室
自社データを用いた実務プロジェクト型アカデミー
機械学習モデルの第三者レビュー・監査

この記事では、背景、それぞれの支援内容、どの支援を選べばよいか、実施までの流れ、費用・お問い合わせの順に説明します。なお、データ化学工学研究室（金子研究室）が実施する共同研究とは別のものになります。

背景

これまで、企業の方々と共同研究やコンサルティングをするなかで、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスに関する、いろいろなご相談をお引き受けしてきました。実際に難しいのは、Pythonのプログラムを書くことや、機械学習の手法を実行することだけではありません。

たとえば、

どのようなデータを集めればよいか
データをどのような形で整理すればよいか
どのサンプルを解析に用いるか
目的変数yと説明変数xをどのように設定するか
どのような特徴量を作るか
どのようにモデルを評価するか
モデルの適用範囲をどのように設定するか
モデルをどのように逆解析するか
解析結果を次の実験や製造にどうつなげるか

といったところに、多くの検討が必要です。

また、すべての課題で機械学習を使う必要があるわけではありません。統計解析やデータの可視化だけで目的を達成できることもあります。そもそも、データの取り方を変えなければ目的を達成できないこともあります。

機械学習ありきではなく、企業における本来の目的を達成するため、どのようなデータを用いて、どのような解析を行い、結果をどのように活用するかを一緒に考えます。

1. データ活用・AI／ML／MI実装診断

まず、

「社内にデータはあるけれど、何から始めればよいかわからない」

「いろいろなテーマがあり、どのテーマから機械学習を始めるべきかわからない」

という企業向けの支援です。

AI／ML／MIと書きましたが、対象はマテリアルズインフォマティクスに限りません。ケモインフォマティクス、プロセスインフォマティクス、スペクトル解析、ソフトセンサー、異常検出なども含みます。

実施すること

最初に、研究・開発・製造における課題や、現在保有しているデータについてお話を伺います。

そのうえで、たとえば以下を検討します。

企業として達成したい目的
現在の業務の流れ
保有しているデータ
今後収集できるデータ
データ解析・機械学習を活用できそうなテーマ
期待できる効果
実施に必要な期間
実現の難易度
優先して取り組むべきテーマ
実施する場合の進め方

最終的には、どのテーマを、どのようなデータを用いて、どのような手順で進めるべきかをまとめます。

成果物の例

保有データと業務課題の整理
データ解析・機械学習の適用候補一覧
各候補の効果・難易度・優先順位
不足しているデータの整理
最初に実施する内容・計画
今後6か月～1年間のロードマップ

この診断では、基本的には本格的な機械学習モデルの構築までは行いません。

まずは、何を実施するべきかを明確にすることが目的です。

期間は3～4週間程度を想定していますが、対象となる部門やテーマの数によって変わります。

2. 外部インフォマティクス推進室

企業のなかで、データ解析・機械学習を担当されている方が一人、もしくは少人数であることがあります。

そのような場合、

解析方針について相談できる人がいない
構築したモデルが妥当なのかわからない
社内会議でどのように説明すればよいかわからない
日々の業務が忙しく、インフォマティクスの取り組みが進まない
部門ごとに別々の解析をしており、知見が共有されない

といった状況になることがあります。そこで、社外のインフォマティクス推進室として継続的に支援します。

支援内容の例

定期的なオンライン会議
研究・開発テーマの相談
データの取り方・整理方法に関する相談
データ解析方針の検討
Pythonコードのレビュー
機械学習モデルのレビュー
解析結果の解釈
モデルの逆解析に関する相談
次の実験候補・製造条件候補の検討
社内報告資料へのコメント
経営層・管理職向けの説明支援
社内勉強会

基本的には、企業の担当者の方々と一緒に取り組みを進めます。すべての解析を外部に丸投げするのではなく、企業内に知識・経験・コードが蓄積され、将来的には自社で進められる範囲が広がることを目指します。契約期間は、原則として6か月以上を想定しています。月ごとの会議回数、参加人数、コードレビューの有無、解析作業の有無などに応じて、支援内容を決めます。

3. 自社データを用いた実務プロジェクト型アカデミー

Pythonや機械学習の研修を受けたものの、

「サンプルデータでは解析できたけれど、自社のデータではどうすればよいかわからない」

ということがあります。これは自然なことです。

サンプルデータは、基本的には解析しやすいように整理されています。一方で、実際の企業データには、欠損値、外れ値、測定条件の違い、ロットの違い、装置の違い、時系列変化など、いろいろな要素があります。そこで、講義を受けるだけではなく、実際の自社データを用いて、一つのプロジェクトを最後まで進めるアカデミーを実施します。

基本的な内容

最初に、動画や資料を用いて、Python、データ解析、機械学習の基礎を学びます。その後、参加者ごと、もしくはグループごとに自社のテーマを設定します。設定したテーマについて、

目的を決める
データを整理する
データを可視化する
前処理を行う
特徴量を検討する
モデルを構築する
モデルを評価する
結果を解釈する
次の実験・業務につなげる
最終発表をする

という流れで進めます。定期的な相談会において、解析方針やPythonコード、結果の解釈についてコメントします。

対象となる方

Pythonや機械学習の基礎を学びたい方
基礎は学んだが、自社データの解析経験が少ない方
社内のデータサイエンス人材を育成したい企業
研究者・技術者にデータ解析を身につけてもらいたい企業
社内のMI・PIプロジェクトを立ち上げたい企業

目標は、研修を受けたという状態ではなく、参加者が自社のデータを用いて一つの解析を完了し、その結果と今後の方針を社内で説明できる状態になることです。期間は8～12週間程度、参加人数は5～20名程度を想定しています。内容や参加人数については調整可能です。

4. 機械学習モデルの第三者レビュー・監査

企業内で構築した機械学習モデルや、外部のAIベンダーなどから納品された機械学習モデルについて、

「予測精度は高いと報告されているけれど、本当に信用してよいのか」

「実際の研究・製造で使ってよいのか」

「モデルの評価方法に問題はないのか」

といったご相談もお引き受けします。

機械学習モデルでは、予測精度を表す数値が高ければ、必ずよいモデルであるとは限りません。たとえば、モデルの構築方法や評価方法によっては、実際よりも予測性能が高く見えてしまうことがあります。

確認する項目の例

解析目的とモデルの目的が一致しているか
データの分割方法は適切か
データリークが発生していないか
クロスバリデーションの方法は適切か
ハイパーパラメータの最適化方法は適切か
外れ値の扱いは適切か
サンプル数と特徴量数の関係に問題はないか
特徴量の設計方法は適切か
モデルの適用範囲が検討されているか
予測値の不確かさが検討されているか
変数重要度やモデルの解釈が妥当か
新しいデータでも再現できるか
Pythonコードや解析手順を再実行できるか
実際の運用条件が考慮されているか

確認結果は、第三者レビュー報告書としてまとめます。問題が見つかった場合は、問題を指摘するだけではなく、どのようにモデルを再構築・再評価すればよいかも提案します。モデルの開発者を評価することが目的ではありません。そのモデルをどの範囲で、どのような注意をしながら使えばよいかを明確にすることが目的です。

どの支援を選べばよいか？

どれを選べばよいかわからない方は、以下を目安にしていただければと思います。

「そもそも何から始めればよいかわからない」という場合は、データ活用・AI／MI実装診断です。

「社内で取り組みを始めているが、継続的に相談できる専門家が必要」という場合は、外部インフォマティクス推進室です。

「社員に知識だけでなく、自社データを解析する実践力を身につけてもらいたい」という場合は、実務プロジェクト型アカデミーです。

「すでにモデルがあり、そのモデルを信用してよいか確認したい」という場合は、第三者レビュー・監査です。

複数を組み合わせることも可能です。たとえば、最初に実装診断を行い、その後は外部インフォマティクス推進室として継続的に支援する、といった進め方です。

対象分野

主に、以下のような分野を対象とします。

化学
素材・材料
製薬
食品
エネルギー
環境
製造業
プラント・プロセス産業
分析機器・センサー
研究開発部門
生産技術部門
品質管理・品質保証部門

対象となるデータは、化学構造、実験条件、合成条件、製造条件、プロセスデータ、スペクトル、物性、活性、品質、画像、時系列データなどです。

上記以外の分野・データでもお引き受けできる場合があります。

実施までの流れ

まず、メールからご連絡ください。

メンバー

・教員教授金子弘昌世界の化学者データベース X(twitter) GitHub* メールアドレスは、[] 内の文字に @meiji.ac.jp をつけたものです兼任広島大学大学院先進理工系科学研究科客員教授兼任大阪大学大...

その際、差し支えない範囲で、以下をご記載いただけると、その後の話が進みやすいです。

会社名・部門名
ご相談の背景
達成したい目的
現在お困りのこと
保有しているデータの概要
希望する支援
希望する開始時期

最初にオンラインで打ち合わせを行い、目的や課題を確認します。本記事の支援をご検討いただくための初回打ち合わせは、1時間程度まで無料です。ただし、具体的な解析方法や技術的な質問への回答のみを目的とする場合は、技術相談としてお引き受けします。

機密情報を扱う必要がある場合は、秘密保持契約を締結してから、具体的なデータや課題を確認します。その後、実施内容、成果物、期間、費用を記載した提案書・見積書をお送りします。

費用

費用は、対象となるテーマ、データ量、解析内容、会議回数、参加人数、成果物などによって異なりますので、個別にお見積もりします。目安は以下のとおりです。

データ活用・AI／MI実装診断：120万円～
外部インフォマティクス推進室：月額60万円～
実務プロジェクト型アカデミー：1期300万円～
機械学習モデルの第三者レビュー・監査：150万円～

上記は目安であり、支援内容によって金額は変わります。

最初から大きなプロジェクトにするのではなく、対象を一つのテーマや一つのデータセットに限定して、小さく始めることも可能です。

注意点

データ解析・機械学習によって、必ず目標とする結果や予測精度が得られることを保証するものではありません。データを確認した結果、現在のデータでは目的を達成することが難しいと判断する場合もあります。また、機械学習ではなく、別の方法を用いたほうがよいと考えられる場合もあります。そのような場合も含めて、現在のデータで何ができるか、何が難しいか、今後どのようなデータを取得すればよいかを整理してお伝えします。

また、大学における研究・教育、既存の共同研究・コンサルティングなどとの関係で、お引き受けできない場合や、開始時期を調整させていただく場合があります。あらかじめご了承ください。

お問い合わせ

データ解析・機械学習を活用したいけれど、何から始めればよいかわからない方も、すでに具体的な課題をお持ちの方も、まずはご連絡いただければと思います。どの支援が適切かわからない場合は、最初の打ち合わせでお話を伺い、適切な進め方を提案します。