データセットを解析したり新たな手法を開発したりする時にチェックしていること

データ化学工学研究室 (金子研) では、いろいろなデータセットを解析したり、ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスの新たな手法を開発したりしています。そのようなとき、共通する内容として、主に以下の...

データ解析や構築したモデルの目的によって特徴量や手法は異なる

データセットを準備して、説明変数 x と目的変数 y との間で回帰モデルやクラス分類モデル y = f(x) を構築して、そのモデルを活用する、といったことはあります。このときモデルの予測精度は非常に重要です。予測精度を向上させるために、x...

特徴量間の関係をすべて考慮してモデリングしたいならGMM

回帰分析やクラス分類では、説明変数 x と目的変数 y があり、x と y の間でモデル y = f(x) を構築します。モデルを用いて、x を入力して y を予測したり、y が目標値になるような x を設計したりします。ここでは、いろいろ...

データセットに不要な特徴量があることよりも、重要な特徴量がないことの方が問題です

説明変数 x と目的変数 y の間のモデル y = f(x) について、モデルの予測精度を向上させようとするとき、x の特徴量の検討は非常に重要です。データ収集のときに適切な特徴量のデータを集めたり、データ収集後に特徴量を適切に変換したりす...

測定条件・分析条件・評価条件の異なる物性や活性のデータの扱い

説明変数 x と目的変数 y の間で、機械学習によりデータセットからモデル y = f(x) を構築することがあります。y として物質の物性や活性が用いられますが、例えば温度や圧力といった、物性や活性の測定条件・分析条件・評価条件が異なるデ...

いただいたアドバイスの一番の有効活用方法は、まずアドバイス通りにやってみることです

データ解析や機械学習を活用した分子設計・材料設計・プロセス設計・プロセス管理などの研究や開発をしているときに、他の人からのアドバイスを求めるときがあると思います。アドバイスをいただいたときに、そのアドバイスの一番の有効活用方法は、アドバイス...

データ解析や機械学習をするときは、常に目的を意識しましょう

データセットがあるとき、例えば説明変数 x と目的変数 y の間で機械学習によりモデル y = f(x) を構築します。モデルに x の値を入力することで、y の値を予測でき、予測結果を活用します。このように機械学習によりデータセットを有効...

困ったら基礎やアルゴリズムに立ち戻ることも大事です

データ解析や機械学習を活用した研究・開発において、予測精度の高いモデルが作れなかったり、モデルの逆解析で有望そうなサンプルが得られなかったりして、困ったり壁を感じたりしたときの話です。 一般的にはその状況を打破するような新たな手法や戦略を探...

可視化手法・低次元化手法の分類

説明変数 x の数が大きいときなど、データセットを用いてx を潜在変数 z に変換する手法を用いることがあります。z の数が二つのとき、データの可視化 (見える化) になります。手法の例としては、以下のものが挙げられます。 Principa...

コスパは、コストで割るのではなくパレート最適解で考えよう!

工学的な研究をしていますので、最終的には「決める」ことを目指すことになります。例えば、データ解析や機械学習でいえば、ハイパーパラメータをいろいろな候補の中から決めることになりますし、モデルもいろいろな手法で構築されたモデルの中から決めること...
タイトルとURLをコピーしました