データ解析・機械学習の学会発表・報告会をしたり論文・報告書を書いたりするときに注意したいこと

ケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスに関して研究・開発して、ある程度研究成果が出てきますと、学会で研究発表したり、研究室内や社内で報告会をしたり、論文を書いたり報告書としてまとめたりすると思います。実際に解析している人としては、日々いろいろな情報に触れたり、様々な設定をしたり、たくさんの結果を出していますので、それらを発表資料にどこまで含めればよいのか、論文や報告書にどこまで書けばよいのか、迷う方もいらっしゃるでしょう。

各種資料にどこまで情報を載せるか考えるときに考慮することは、他の人が同じ結果を再現できるか、ということです。基本的に発表資料や論文や報告書にある結果は、他の人が同じデータを使用して、まったく同じ解析したときに、同じ結果になることが前提になります。そもそも結果に再現性がなければ、研究成果とはいえません。また報告書の内容で結果を再現できなければ、引き継ぎする人も非常に困ります。

発表を聴いたり、論文や報告書を読んだりした人が、結果を再現するのに必要な情報は、各種資料に含める必要があります。もちろん、社内のデータなのですべて開示できないことはあります。ただ、もし仮に同じデータであれば、他の人でも結果を再現できる情報を記載します。この情報があれば、相手が別の類似したデータであれば、同様のことができるはずです。また乱数によって結果が変わるときは、まったく同じ結果にはならないかもしれませんが、ほぼ同様の結果が得られるでしょう (そもそも乱数によって大きく結果がかわるときは、そのことも言及する必要があります)。

例えば回帰分析はクラス分類のハイパーパラメータの具体的な値や、クロスバリデーション等で最適化したときはそれらの候補の値を資料に記載するようにしましょう。もちろん発表するスライドに入れたり、論文の本文中に記載したりするのではなく、予備スライドに入れたり、論文の付録に記載したりすることあるかもしれませんが、各種資料のどこかに情報を載せておくことが大切です。逆の立場のとき、論文を読んでも記載されている手法を再現できなかったら、ガッカリですね。そういったことが起こらないように、十分な情報を載せるようにしましょう。

さらに、例えば回帰分析手法、クラス分類手法、類似度の指標など、複数の候補のなかから選択をしたとき、なぜその選択をしたのかの記載を入れておくとよいでしょう。学会発表では、質疑応答のときにそのような質問があることが多いですし、実際気になるところです。また研究室や社内での引き継ぎのときには、選択した理由に関する情報を入れることで、次の人が改めて試行錯誤する必要がなくなることもあります。

研究成果が出てきたら、発表したり論文化したり、研究室内や社内で報告したりすることがあると思います。以上の点に注意して資料を作成するとよいでしょう。

 

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

タイトルとURLをコピーしました