事実と解釈を分けて考える (モデルの解釈の話ではありません)

シェアする

研究に関する議論をしたり、研究発表を聞いたり自分でしたり、研究論文を読んだり自分で書いたりするときに気をつけていることの一つとして、事実と解釈を分けて考える、ということがあります。例えば回帰モデルの予測精度の話で、あるモデルを用いてテストデータを予測して、「r2 が 0.95 であり予測精度の高いモデルを構築できた」 とあるとき、r2 が 0.95 であることは事実ですが、予測精度の高いモデルというのは解釈になります。クラス分類モデルの予測精度の話で、あるモデルを用いてテストデータを予測して、「正解率が 0.99 であり予測精度の高いモデルを構築できた」 とあるとき、正解率が 0.99 であることは事実ですが、予測精度の高いモデルというのは解釈です。また化学構造の類似性の話で、二つの化学構造の間で tanimoto 係数を計算して、「tanimoto 係数の値が 0.9 であり二つの化学構造は類似している」 とあるとき、tanimoto 係数が 0.9 であることは事実ですが、化学構造は類似しているというのは解釈です。

事実は客観的、解釈は主観的ということもできます。この事実と解釈は、分けて考えた方が論文も読みやすく発表も聴きやすく、議論もしやすいです。

事実と解釈を混ぜて、「r2 が 0.95 であり予測精度の高いモデルを構築できた」 という内容に対して、r2 ではなく別の指標を見るべきでは?といった事実に関する議論や、本当に予測精度が高いといえるのか?といった解釈に関する議論が混在する恐れがあり、議論が発散してしまいます。どこまでが事実でどこからが解釈かわかるように整理するとよいです。

事実は客観的であり、r2、正解率、tanimoto 係数、目的変数の実測値 vs. 推定値プロット、混同行列などのように、誰が示しても同じ結果になります。事実として、誰がやっても変わらないことから面白みがないともいえますが、どのような事実を採用するか、取捨選択するかに人の違いが出ることがあり、面白みは出るところでもあります。

ここに解釈が生まれなければ、この事実を確認した方がよいとか、この計算方法はこれまでのやり方と異なるとか、そのような議論に特化することができます。

一方で、解釈は人によって変わることがあります。そのため解釈については、その解釈をした判断基準やエビデンス (事実) を示すことが重要です。なぜ予測精度が高いと判断したのかを示す必要があるわけです。ちなみに r2 や正解率は比較するための指標であり、その値自体で予測精度が高いとか低いとかを議論することはできません。

同じ事実でも判断基準が異なることで良好な予測精度、予測精度が悪いといったような逆の解釈になることもあります。モデルの誤差の許容範囲は、モデルを用いる対象や目的によりますので、同じ誤差でも、許容範囲を満たしていれば良好な予測精度といえますが、許容範囲を満たしていなければ予測精度が悪い、となります。この辺りはとても面白みがある部分とは思いますが、先に述べたようにその判断基準やエビデンスというものをしっかり説明しないと、議論が発展しませんので注意する必要があります。

以上のように事実と解釈が混じることのないように、それらを分けて議論するとよいと思います。

以上です。

質問やコメントなどありましたら、twitter, facebook, メールなどでご連絡いただけるとうれしいです。

シェアする

フォローする