内涵越丰富,外延越狭窄,“维数灾难”,confidence高的模式,support不高(出现的频数不高)

今天看了一篇文章《直觉,固执,谋杀:三则故事》。百度上来看转载得还挺多,找不到原作了。可是我越看越糊涂,是我的概率论学得不好?还是文科领域的思路和工科完全不同?首先是原文:(其他都是blog为主,找个Google的)
链接出处

俺逐个评论下:


最在日常生活中也有类似的现象。当某人向你讲述一件事时,他讲的细节越多,你越容易相信他讲的是真的。但是,细节越多,可能意味着这些细节同时发生的可能性越小,所以他讲的事越不可能是真的(当然,这些细节必须相互联系,你才会信以为真。所以他们之间不是互不相干“相互独立”的,但是这些联系是你做为听者自己加进去的)。

简评:这则故事被用来说明古典概率论无法解释人类的决策过程,在起点和直觉上就可能错的离谱。这个实验是Tversky 和 Kahneman 1974年做的,后者后来得了诺贝尔经济学奖,前者本来应该分享这一殊荣,可惜没能活到得奖那天。这里的表述转引自以色列教授Itzhak Gilboa的著作《Theory of Decision under Uncertainty》, 这本书极好。


—————幻批:———————

没这么玄乎吧:

用逻辑学的说法就是内涵越丰富,外延越狭窄的道理。

用机器学习的观点,对目标“描述越多”,意味着样本维数越高,那么有限的训练样本在整个样本空间中就会越稀疏,也就意味着只是“沧海一粟”,会影响泛化性能。这就是“维数灾难”。

用数据挖掘里常用在购物篮分析的Apriori算法里的概念来说就是:confidence高的模式,support不高(出现的频数不高)

——至于人相不相信,本来就和概率无关。人本就不是时时事事都理性的,别忘了人还有很大的情绪因素呢。


简评:这个故事更像个笑话,不过它揭示了个道理:第一印象是很难改变的。第一印象一旦形成就很难彻底消除,以后就算接受了新信息,也往往不过是基于这第一印象进行调整。用现在流行的术语,这叫“锚效果”,第一印象就像一只锚,一旦抛下,很难撼动根本。用贝叶斯的理论说,如果这第一印象(先验概率)很强的话,要消除它或者大幅度的修正它,需要很多很强的新信息。

又有问题了,说“第一印象”是先验Prior是不对的。先验是描述事情发生的“固有”概率,比如正常硬币投出每一面的概率是0.5,而一个某面磨损了的硬币可能就是0.51/0.49。做预测或者分类的时候,先验通常是很难得到的,一般都要有背景知识了。所以通常假设先验是相等的,用样本估计条件概率,也就是似然likehood,然后去根据后验概率进行判别。

如果硬要用统计学的观点来说的话,是你之前在很少的样本“训练”的算法(例如得到的似然),就固定下来了,没有用后来的很多样本去不断训练算法,所以不能描述在大样本下的性质,说白了就是盲人摸象了。原因么,一个是算法的泛化能力不行,第二 算法的训练过程不是online和incremental式的。这种问题在机器视觉、目标跟踪里是常有的事,修正老的也不见得需要“很多很强的新信息”,实时性能满足的话,经常用新样本训练,经常遗忘老就行了,但绝对扯不到先验上。


为了证明辛普森有罪并给陪审团留下他杀妻的印象,检方举证说辛普森之前有家庭暴力行为,而“扇耳光是谋杀的前奏”。但辛普森的辩护律师说,检方不过是在误导陪审团。辩护律师说:截至1992年,美国每年有400万女性被丈夫或男友打过,但是根据FBI的报告,其中只有1432人被丈夫或男友杀死,这概率大概2800分之一。怎么能用这么小的概率来推理呢?

这个辩护看起来很有说服力,但实际上完全与案件无关。问题根本不在于打过女人的男人有多大可能性杀死这女人(这概率,如上所述,是2800分之一),而在于被打过且被杀死的女人中,有多少死于打过她的人之手?这后者的概率,根据1993年的美国犯罪报告,是90%。在辛普森案中,检方从来没提起过90%这个数字,显然中了辩方的招。


—————幻批:———————

最后一个事情一开始我也糊涂了

最后想清楚了,定罪需要得到是P(被告杀妻|被告打过妻子) 高,

P(被告杀妻|被告打过妻子) = P(被告打过且杀了妻子)/P(被告打过妻子)

而检方已经指出P(被告打过妻子) = 1 那么焦点就在于P(被告打过且杀了妻子)。

被告给出的是历史统计数字P(男方打过妻子且男方杀妻) = 1432/(家庭总数)

但是问题在于 历史上的P(男方打过妻子且男方杀妻) 能否等同于现在这个案子的P(被告打过且杀了妻子)?

注意这里的历史统计数据,不是针对的被告,而是其他人。把人看成随机变量的话,也就是说针对的是N多个随机变量,而不是被告这1个,这也就是集合平均而非对被告的时间平均,也就是“各态历经性”的问题。

这问题就大了:

第一,首先能不能说所有的人都是服从同分布的随机变量?我没学过测度论下的现代概率论,所以不懂这个怎么证明。

第二,即便你证明第一点成立,那么你怎么说明各态历经性的?

第三,即使各态历经性就算成立,那还有“平稳性”问题呢!也就是随着时间推移,随机变量的分布会变化吗?比如周处除三害的故事,周处之前是无恶不作没错,但是人家一旦幡然悔悟,就变好了啊!以后出了坏事,你还用老眼光,根据历史数据说还是人家干的?

所以,我要是法官,干脆就根本别扯出概率统计的问题。直接拿出指纹啊,血迹啊这样的实证来!P(苦主死亡|被告行为) = 1的证据来。

至于那个90%就更莫名奇妙了,统计口径是所有女人VS各种凶手,而非限定于家庭成员。而本案明明已经是针对家庭成员了,那么即使上面三个假设都成立,可以用统计数字来说论证犯罪的话,人家那个P(男方打过妻子且男方杀妻) = 1432/(家庭总数)显然比这个90%的说服力要高得多。



简评:我做过两学期初等概率论和统计学的助教,讲辅导课时,条件概率和贝叶斯定理很难教。我相信这些概念和推理是合乎逻辑的,但我也相信它们和人类直觉相悖,人通常不这么思考问题,人很容易被愚弄。

这个作者到底咋理解“先验概率”、“贝叶斯公式”的?

我不懂法律界是怎么理解和使用概率统计的,但是作为一个整天用统计学做数据挖掘、机器学习的人来说,几乎看到的各种文章里都在和条件概率打交道,贝叶斯推断好像不是作者理解的这样的……。

——————
听人建议,把标题中“文科”换成“社会科学”,字数限制了-_-!。

请您先登陆,再发跟帖!