材料設計において、材料の物性 Y と実験条件 X との間で回帰モデル Y = f(X) を構築し、そのモデルに基づいて Y が望ましい値であったり、目標の値であったり、目標の範囲に入ったりするような X の値の提案を行います。いわゆるモデルの逆解析です。

回帰モデル・クラス分類モデルの逆解析～目標のY(物性・活性など)を達成するためのX(説明変数・記述子・特徴量・パラメータ・入力変数)とは？～

回帰モデルやクラス分類モデルが得られたあとの話です。よくやるのは、説明変数 (記述子・特徴量・パラメータ・入力変数) X の値を回帰モデルやクラス分類モデルに入力して、目的変数 Y の値を推定することです。これをモデルの順解析とよびます。そ...

モデルの逆解析をするときのチェックリスト

回帰モデルやクラス分類モデルを構築したら、モデルの逆解析を行うことで、目的変数の目標値を達成すると考えられる説明変数の値を推定できます。ただ、モデルの逆解析をするときは、いくつか注意点がありますので、チェックリストとしてまとめました。モデル...

[Pythonコードあり] 特徴量ごとや特徴量間に制限があるときの、モデルの逆解析用のサンプル生成

回帰モデルやクラス分類モデルを構築した後の、モデルの逆解析の話です。上の既存のサンプルの分布に従うように、モデルの逆解析用のサンプルをたくさん生成する方法では、既存のサンプルのデータ分布を求めて、その分布に従うようにして新たなサンプルを...

逆解析で得られた X の値で実験を行います。この実験でよい結果が得られ、例えば Y の値が目標を満たしている場合には、ゴールになりますが、そうでない場合には、その実験結果をサンプルとしてデータセットに追加して、新たに Y = f(X) を構築し、次の X の値を提案します。このモデル構築、逆解析、実験を繰り返すことで、Y の目標値となるような材料を探索します。

モデル構築、逆解析、実験を何回も繰り返して、それでも Y の目標値に達成しないと、そもそも原理的に目標を達成できない材料なのではないか、と考えるかもしれません。これ以上やっても、もう Y の値を向上できませんよ、みたいなことがデータ解析・機械学習によって分かれば嬉しいです。材料開発をストップし、次の材料の開発をはじめることができます。

しかし残念なことに、基本的にデータ解析や機械学習からは逆解析の限界はわかりません。例えば実験条件が 10 あり、それぞれの実験条件において 10 通りの設定値を振りたい場合には、すべての組み合わせは 10¹⁰ 通りものとてつもなく大きな数になります。すべてを実験することはできませんし、ベイズ最適化では、

ベイズ最適化(Bayesian Optimization, BO)～実験計画法で使ったり、ハイパーパラメータを最適化したり～

ガウス過程による回帰をうまく使って、実験計画法における新しい実験候補を探索したり、回帰モデルやクラス分類モデルのハイパーパラメータ (学習では求まらないため事前に決めるべきパラメータ) を決定する方法が、ベイズ最適化 (Bayesian O...

ベイズ最適化で期待できること

材料の活性・物性・特性は、化学構造だけで変化するものではなく、材料の作り方、つまり実験条件や製造条件によっても変化します。例えば高分子設計において、単量体 (モノマー) の化学構造だけでなく、そのモノマーの種類・組成比や、反応温度や反応時間...

目的変数が複数のときに実験計画法のベイズ最適化(Bayesian Optimization, BO)が対応！

実験計画法やベイズ最適化 (Bayesian Optimization, BO) についてはこちらに書いたとおりです。Python コードもあります。今回は実験計画法の BO について目的変数が複数のときに対応しましたので報告します。プログ...

より外挿になるような次の実験条件が選択されがちですが、それでも広大な解空間をまんべんなく探索することは不可能です。次の実験条件の値が、これまでの値を超えない保証はどこにもないわけです (値を超える確率はゼロではありません)。

次の実験を行うかどうか判断するのは、人です。

では、その判断材料として、どのような情報をデータ解析・機械学習により示せるでしょうか。

一つはモデルの適用範囲 (Applicability Domain, AD) 付きの Y の予測値です。

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回帰モデル・クラス分類モデルを使うとき必須となる概念～

今回は、モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) についてです。AD は回帰モデル・クラス分類モデルが本来の性能を発揮できるデータ領域のことです。回帰モデル・クラス分類モデルを使うとき必須にな...

内挿・外挿は、モデルの適用範囲内・適用範囲外と違いますので注意が必要です

回帰分析やクラス分類によって構築された、目的変数 Y と説明変数 X との間のモデル Y = f(X) についてです。モデルについて議論するとき、モデルはデータの外挿は予測できない、内挿しか予測できない、とか、その予測結果は内挿なの？外挿な...

AD 内であれば、トレーニングデータにおける予測誤差と同様の誤差であると考えられますので、それを基準にして、実験後の Y の値を考え、目標を達成するかどうか、実験するかどうかを人が判断します。

また AD の情報として、アンサンブル学習における Y の予測値の分散とすることで、

アンサンブル学習～三人寄れば文殊の知恵～たくさんモデルを作って推定性能を上げよう！

応化先生と生田さんがアンサンブル学習 (ensemble learning) について話しています。応化：今日はアンサンブル学習 (ensemble learning) についてです。生田：アンサンブル？音楽関係ですか？応化：いえ、合奏とか...

例えば予測値が正規分布に従うと仮定したとき、平均値として予測値を用いて、さらに予測値の分散を用いることで、正規分布を決められますので、例えば予測値の±2×標準偏差以内に実測値が入る確率はおよそ 95 % といったような確率で表現できます。この確率と実験にかかるコストを考え、次の実験をするかどうかを判断します。

ベイズ最適化でも確率で表現できます。Y がある目標範囲に入る確率や、ある値以上となる確率で表現することで、Y の目標を満たす確率を考えることができます。

以上のように、AD 付きの Y の予測値や Y の確率で表現することで、たとえば確率と実験するコストを考慮し、次の実験を行うか、もう実験をストップするかを考え判断することになります。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。