2018年3月25, 26, 27, 28日に開催されました 日本薬学会 第138年会(金沢) ~ 次世代に向けた創薬/医療イノベーションの今 ~ に参加して、データ化学工学研究室(金子研)の学生2名が口頭発表して参りました。
とても大規模な会議であり、最大で 23 会場で並行して口頭発表・ポスター発表・シンポジウムなどが行われていました。口頭発表・ポスター発表は大きく分けて
- 化学系薬学
- 物理系薬学
- 生物系薬学
- 環境・衛生系薬学
- 医療系薬学
- 教育系薬学
- その他
の分野があり、その中でさらに細かくセッションが分かれています。他にもシンポジウムとして、一般シンポジウムが 71 つ、大学院生シンポジウムが 3 つ、国際交流シンポジウムが 2 つありました。あとは特別講演や受賞講演などです。かなり大きいですね。
金子研の清水と菅野は、計算化学・その他 のセッションで、卒業研究の集大成を発表しました。座長をしていただいた北里大学の山乙先生どうもありがとうございます。
2人の卒業研究内容の概要はこちらのも記載しましたが、
薬学会での発表タイトル・要旨を記載します。ちなみに、薬学会の下のサイトから公開されています。
清水: http://nenkai.pharm.or.jp/138/pc/ipdfview.asp?i=777
菅野: http://nenkai.pharm.or.jp/138/pc/ipdfview.asp?i=901
タイトル:清水
少数サンプルにおける活性予測モデルの性能評価および精度向上
要旨:清水
近年、医薬品の研究開発費が増加している中で、コンピュータを活用した効率的な創薬研究が注目されている。本研究では、化合物の活性を目的変数y、その化合物の構造記述子を説明変数Xとし、コンピュータを使った相関モデルの構築を行う。一般的に、サンプルが少ない場合、テスト用のデータでの検証ができず、モデル構築用データにのみ適合した予測性能の低いモデルが構築される危険性が高い。本研究では、クロスバリデーションを入れ子構造にして2回行うことで、クロスバリデーションよりも相関モデルの予測性能を適切に評価できるダブルクロスバリデーションを使い、サンプル数が少ない中で高性能な相関モデル構築を目指す。
今回は、729個の化合物のHuman NAD-dependent protein deacetylase sirtuin 1(Sirtuin 1)のアセチル化に対する阻害度IC50の対数をy、RDKitを用いて計算された構造記述子をXとしたデータを使用した。
化合物データから少数のサンプルをランダムに選び、線形回帰手法と非線形回帰手法で相関モデルを構築した。それぞれの回帰手法におけるモデル構築用データのIC50予測結果を、ダブルクロスバリデーション推定値による決定係数Rdcv2、Root Mean Squared Error (RMSEdcv)を指標として評価した。モデル構築に使用したサンプル以外のデータのIC50を各モデルで予測して結果を比較することで、ダブルクロスバリデーションによる評価の検証を行い、その有効性を確認した。
タイトル:菅野
回帰分析における精度向上のための化学構造データ選択手法
要旨:菅野
莫大な医薬品開発コストの削減およびヒット率の上昇を目的として、近年コンピュータを利用して創薬をサポートすることに高い関心が寄せられている。化合物の活性を目的変数y、化学構造の情報を数値化した構造記述子を説明変数Xとし、2つの間の関係を数値モデル化することで、仮想的な化学構造の活性値を実験することなく推定することが可能となる。Xの値はソフトウェア等により計算できることが多いのに対してyの値を得るには実際に実験しなければならないため、yの値が測定されている化合物(教師ありデータ)が少なく、yの値が測定されていない化合物もしくは化学構造(教師なしデータ)が多く存在する。教師なしデータを有効活用して学習を行う方法は半教師あり学習と呼ばれ近年盛んに研究されている。教師ありデータと教師なしデータを合わせて主成分分析によりデータを低次元化し、得られた主成分とyとの間で教師ありデータを用いて部分的最小二乗法により回帰モデルを構築する手法PCAPLSがよく知られている。しかし、半教師あり学習を行う際に使用する教師なしデータに関する議論は進んでいない。回帰モデルの精度に悪影響を与える教師なしデータを含めてしまう可能性がある。
本研究は、回帰モデルの性能が十分に発揮されるデータ範囲である、モデルの適用範囲に着目した教師なしデータ選別手法を提案する。モデル構築用データのデータ密度の高い領域から教師なしデータを選択する。PCAPLSおよび提案手法を用いて、1183個の化合物に関する50%成長阻害濃度(IGC50)データと医薬品候補になりうる約50万化合物のデータを解析したところ、提案手法を用いることでPCAPLSよりも回帰モデルの推定性能が向上したことを確認した。
二人とも堂々と発表していてよかったと思います。卒業研究発表会で発表したり、今回の薬学会のために練習したりした成果ですね。
ちなみに、質疑応答の時間にはこちらの質問をいただきました。
- ダブルクロスバリデーションについて詳しく教えてほしい
- 外れ値はどのように扱われるか?
- なぜ、実測値 vs. 推定値プロットで提案手法によりサンプルが対角線に乗るようになったのか? うまくいった理由は何か?
- 今回のハイパーパラメータは何で、そのチューニングはどのようにしたか?
- 多くの化合物を扱っているが、計算時間はどのくらいか?
- 外挿近くを予測したいが、どうしたらよいか?
- 推定値の方向性を考えたらどうか?
質疑応答は、あと一歩といった感じですかね。これから場数をふみながら頑張ってください。
二人とも英語で論文を書くとのことですので、今後もぜひ見守っていただけるとうれしいです。
ひがし茶屋街でいただいた金粉ソフト。金粉の味はよく分かりませんでしたが、ソフトクリーム自体は美味しかったです。
以上です。
質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。