受講者のユーザーエクスペリエンスを大事にする 第7回ケモインフォマティクス入門講座 中級編 において講師 兼 ファシリテーターを務めてまいりました。
内容としては、
ケモメトリックスの基礎を学びサンプルデータなどでケモメトリックス手法を用いることができるようになっても、実際のデータを目の前にすると、変数選択、外れ値の調査といった前処理から始まり、解析後に得られた結果をどう解釈するか、といったように、まだまだ実際のデータを処理する時には様々な壁があります。
Pythonで学ぶケモメトリックス中級編講習会では、実際にグループでケモメトリックス解析に取り組むことで、実データを扱う時に直面する問題を解決し、最終的に良い解析ができることを目指します。これを通して、うまく解析できているとどう判断したら良いのか、うまく解析できなかった時には、どこを見直したらうまくいくかといった問題解決体験ができることが期待できます。QSAR・QSPRに精通した講師陣・ティーチングアシスタントに、参加者それぞれが現実に抱えている問題の相談もできます。
です。講義資料はこちらです。
そしてなんと、この日に扱った全ファイルを、こちらから入手することもできます!
本講座全体で目指していたものは、Pythonを使って化合物データの解析、特にデータ解析上級者がやるような回帰分析ができるようになろう!、といった感じです。具体的には、受講者は
- hERG 阻害作用データの収集
- Pythonでのデータの取り扱い
- データの編集
- 記述子計算
- 機械学習手法の勉強 (PLS・リッジ回帰・LASSO・Elastic net・サポートベクター回帰SVR・決定木・ランダムフォレスト)
- 機会学習手法の実行
- クロスバリデーションによるハイパーパラメータの選択
- テストセットの予測
- 予測結果の検証
をしておりました。受講者は皆さんはPython経験者とはいえ、内容的に盛り沢山だったと思います。
しかも、参加者のユーザーエクスペリエンスを大事にしておりましたので、受講者自身が試行錯誤を経ながら、最後の予測結果の検証までたどり着いていただく、ということをファシリテーター全員が意識していました。もちろん、途中で詰まってしまった人のために、資料・コードも準備しており、後ほど内容の復習をすることもできます。しかも動画付き!
受講者の皆さんは、データ解析において機械学習手法を実行するところは敷居が低くなっており、むしろ、データの編集・整理・前処理が大変、ということを感じていらしたと思います。scikit-learnのように一般的な機械学習手法を手軽に扱えるライブラリが充実してきたことで、機械学習をする前までのデータの扱いの重要性が高まってきました。
受講者の皆さんには、ぜひ今回の内容を使いこなせるようになっていただき、ご自身の職場での研究・開発に役立てていただけたらと思います。
そして、これを読んで興味を抱いた方は、ぜひ ケモインフォマティクス若手の会 をチェックしていただき、今後の活動を見守っていただければと思います。
以上です。