贝叶斯定理—估算现在没用的科研以后有用的概率

贝叶斯定理从概率的角度,讲述一个人的观点如何随事实而改变。基本公式如下,(1)就是贝叶斯定理,常使用的是公式(4)。

A代表你相信或感兴趣的事,P(A)代表它发生的概率。B代表与之相关的事;P(A|B)代表在B发生的情况下,A发生的概率,是条件概率。同理,P(B)代表B发生的概率,P(B|A)代表A发生的情况下,B发生的概率。

举个例子。假设A是一个人的信念,“努力坚持能拿到终身教职”;B是一件相关的事,“某人努力坚持,最终拿到了终身教职”。按照贝叶斯定律,我们考虑一个人时如何因为事件B的发生与否,改变自己对A的信念,即在多大程度上相信,努力坚持对拿到终身教职的影响。假设刚开始认为,一般人只要努力坚持就能拿到教职的概率为0.2(二八定律,假定终身教职很难拿,再努力也还需要其他条件配合),即P(A)=0.2。假定无论努力与否,还是有可能拿到教职,概率为P(B|A_)=0.5;而努力坚持有助于拿到终身教职,P(B|A)=0.8。当看到某人努力坚持,最后拿到了教职,也就是B事件发生了,P(B|A)=0.8,根据公式(4)可以算出努力对拿到终身教职的影响是:

若是在此基础上,又看到一个人努力坚持了,但是因为没有发好paper,或者因为高校要求各种苛刻条件达不到,比如海外留学、世界一流大学毕业等等,或者因为教职空缺太少了……总之,就是虽然努力坚持了,但是没拿到教职,P(B|A)的概率就不是0.8而是0.2,努力坚持也没用。因为之前已经看到一个人通过努力坚持拿到了教职,所以单前的P(A)=0.286:

就是说,刚开始不确定努力坚持对拿到终身教职是否有帮助,从统计数据也好,听别人说也好,靠猜测也好,认为只要努力坚持少说也有20%的概率成为教授。看到一个努力坚持的人拿到了终身教职,你对“努力坚持就能拿到终身教职”这个判断的信心会提升到28.6%,接着你又看了一个努力坚持却没能胜出的人,你对努力坚持到底的信心会下降到了13.8%。整个过程,人会因为看到的事实变化,而改变自己的想法,这就是贝叶斯定律想解释的情况。

有个经典例子。A指代“一个人真携带HIV”,一般人群中HIV携带者的比例是0.01%,也就是P(A)=0.01%。若一个人真的是HIV阳性,血液检测手段有99.9%的概率可以检测出来,也就是P(B|A)=99.9%。那么P(B|A_)=0.01% (若是没有携带HIV,那么诊断的准确度高达99.99%,也就是说,误诊的概率为P(B|A_)=0.01%),根据贝叶斯定理,将数值带入公式(4),可以算出一个人即使被检测出HIV阳性,他实际上真的携带HIV的概率是:

即便是高达99.9%的检测准确度,单次检测也只能判断一个人真正携带HIV的概率是50%。打个比方,一千个人里面,有一个人被检测出HIV阳性,但是剩下的999个人中,由于检测手段准确度是99.9%,还是有可能冤枉一个人,总共检测出两个人携带了HIV,实际上只有一个人,所以别检测出HIV阳性而实际上真携带病毒的概率是50%。在此基础上,若是再检测一次,依然为HIV阳性,那么这个人真正携带HIV的概率就变为了P(A|B)=99.99%了(带入公式(4)的P(A)=50%)。

同样道理,“很多东西刚开始的时候都是不知道有什么用的”,假定后来被证明有用的research中,现在不知道有什么用的概率为90%,即P(现没|后有)=90%。假定一般的research,大概有1%是有价值的,P(后有)=1%。而且假设,无论现在看起来有用还是没用,到后来可能会没用的概率为50%, P(现没|后没)=50%。也就是说,即使后来有用的research,刚开始的时候有90%是没用的,那么现在没用的research,到后来能证实有用的概率,也只有1.78%。

这个有用的概率也远高于现在假定的P(后有)=1%。这里的P(后有)应该根据自己所在环境,自己已经做过的工作决定,research有价值的概率是高于1%还是低于1%。若是假定P(现没|后没)=99%,那么P(后有|现没)=0.9%。

参考资料:

万维钢,贝叶斯定理的胆识,《智识分子》

维基百科,贝叶斯定理

2017/1/18, Wed

Leave a Reply

Your email address will not be published. Required fields are marked *