ケモインフォマティクス

特徴量間の関係をすべて考慮してモデリングしたいならGMM

回帰分析やクラス分類では、説明変数 x と目的変数 y があり、x と y の間でモデル y = f(x) を構築します。モデルを用いて、x を入力して y を予測したり、y が目標値になるような x を設計したりします。ここでは、いろいろ...

データセットに不要な特徴量があることよりも、重要な特徴量がないことの方が問題です

説明変数 x と目的変数 y の間のモデル y = f(x) について、モデルの予測精度を向上させようとするとき、x の特徴量の検討は非常に重要です。データ収集のときに適切な特徴量のデータを集めたり、データ収集後に特徴量を適切に変換したりす...

測定条件・分析条件・評価条件の異なる物性や活性のデータの扱い

説明変数 x と目的変数 y の間で、機械学習によりデータセットからモデル y = f(x) を構築することがあります。y として物質の物性や活性が用いられますが、例えば温度や圧力といった、物性や活性の測定条件・分析条件・評価条件が異なるデ...

データ解析や機械学習をするときは、常に目的を意識しましょう

データセットがあるとき、例えば説明変数 x と目的変数 y の間で機械学習によりモデル y = f(x) を構築します。モデルに x の値を入力することで、y の値を予測でき、予測結果を活用します。このように機械学習によりデータセットを有効...

困ったら基礎やアルゴリズムに立ち戻ることも大事です

データ解析や機械学習を活用した研究・開発において、予測精度の高いモデルが作れなかったり、モデルの逆解析で有望そうなサンプルが得られなかったりして、困ったり壁を感じたりしたときの話です。 一般的にはその状況を打破するような新たな手法や戦略を探...

可視化手法・低次元化手法の分類

説明変数 x の数が大きいときなど、データセットを用いてx を潜在変数 z に変換する手法を用いることがあります。z の数が二つのとき、データの可視化 (見える化) になります。手法の例としては、以下のものが挙げられます。 Principa...

目的変数が複数あるときの解析の方針の決め方

説明変数 x と目的変数 y の間でモデル y = f(x) を構築して、新しいサンプルの x をモデルに入力して y を予測したり、y が望ましい値になる x を設計したり (モデルの逆解析) します。このとき、y が複数あることがありま...

実験計画法で実験条件を決めることの意義

まだ実験データがないときに、実験条件を設定して実験することを考えます。実験条件を人が決めるときは、化学的な背景や物理的な背景を考慮したり、装置などの条件に基づいたりして、実験条件を決めることになります。このとき、ある程度実験条件を振ります。...

モデルの適用範囲の手法やハイパーパラメータの選び方

説明変数 x と目的変数 y の間で構築されたモデル y = f(x) を運用するとき、モデルの適用範囲 (Applicability Domain, AD) が必須になります。AD は、モデルが本来の予測性能を発揮できる x のデータ範囲...

未来予測をするモデルを検証するときの注意点

説明変数 x と目的変数 y の間で構築されたモデル y = f(x) の目的として、未来の予測をすることもあります。未来のことはわからないとはいえ、モデルを構築できるということはデータがあるわけですから、データを用いて、構築されたモデルで...
タイトルとURLをコピーしました