数据会说谎?看它如何做到的

会说谎的人经常见,会说谎的数据长什么样呢?今天来讲一个可以一眼就骗过你的眼睛,再多看一眼就会走火入魔恍恍惚惚的有趣现象—辛普森悖论(Simpson’s Paradox)。

多年前,加州大学伯克利(自带光环两秒钟)被人告上法庭,起因是有人认为学校的录取方式长期存在性别歧视,女生录取率明显低于男生。男生录取率为44%,而女生只有35%。明摆了歧视女性,尤其在上世纪七八十年代,女权兴起,这简直就是送上门的慰问品。

当女生家长们正沉浸在一种不劳而获的喜悦之中的时候,隔壁的男生家长一点也没闲着,终于让他们找到了一线希望。明明女生录取率就是远低于男生,可是下面的各个学院却一个个都说女生录取率在他们各自学院都是高于男生的。What the hell? 校长立马站了出来,肯定是有人给了我假数据。

各院长都觉得对方心怀鬼胎,时刻准备找出漏洞就检举揭发。事情正变得越来越扑朔迷离不可描述的时候,终于有聪明人看清了事情的真相,他拿出了一张图,举坐立马陷入了迷思。

对于“Easy”科系,女生录取率以80%对男生62%,大举挫败男生,在“Hard”科系,女生仍以27%对男生26%小幅占优。然而两系合并起来再作比较,女生录取率竟又变成46%,远低于男生的54%。

问题找到了,就出在这看似合理的“合并统计”上了。事情真相大白,没有人造假,校长也没用上假数据,是我们被数据的外表欺骗了,其实也不能怪数据,是我们被自己的“数学直觉”欺骗了。

咦咦咦,到底哪边的数据在说谎?会不会是合并的数据没问题,而分开统计的数据却在迷惑我们?那就谁也不偏袒,再来多看一眼。

“Easy”系因为毕业不需要交三篇核心期刊而遭到男生女生的共同追捧,申请数居高不下,甚至被爱打游戏的男生挤爆门槛,“hard”系则因为老师的要求严格,在男生中遭受冷落,可是女生却义无反顾,丝毫没有考虑到它的录取难度和毕业要求,原因大概只有“据说hard系有个男神老师超帅超体贴他的女学生的”之类的传闻可以解释。

正因为大部分的女生都申请了录取难度高的Hard系,而男生大多申请的录取率高的Easy系,才造成了女生的整体录取率被hard系严重拉低(从80%变成46%),而男生录取率却只收到微小影响(从62%变成54%)。造成最终整体录取率上,女生要低于男生。

数据的分割和聚合远不像1+3 < 2+4 这样清晰明了。“辛普森悖论”这样违反人类直觉的事情一直在发生:
费德勒费天王在网球圈子里还有个称号叫“辛普森悖论之王”,原因是他虽然贵为网球天王,却也是遭受“辛普森悖论”魔咒最多的球员,他的职业生涯中经历了24次总得分高于对手,最后却输掉了比赛。

某地有两所医院,一所大型三甲医院的治愈率长期远低于另一家普通小医院。原因是去三甲医院的重病患者远比普通小医院多,造成最终汇总的治愈率远低于小医院。

地理上也能举出这样的例子。

编造了一个患病数据,合并前的样子和原始数据:


合并后长这样:

可以发现患病率上,房山 < 涿州,大兴 < 固安,但是合并后 房山+大兴 > 涿州+固安。

当我们处理地理数据的时候,往往需要用到各种各样的聚合方法,为了在处理后的数据里尽量保存原始数据的特征信息,不要让它们淹没在不知所以的聚类方法里,需要机制如你擦亮双眼,时刻保持警惕,更重要的是有一门趁手的兵器在手。

GeoHey的在线地理数据处理平台就是专门为你量身打造,解放你的脑容量,丰富的处理工具高效快速,同时还很美腻。既让你专注于数据的真正内涵,同时不知不觉提高对数据展示的品味。不妨戳这里看看我们为你准备的https://geohey.com/site/lab 。

参考资料

费德勒:辛普森悖论之王

数据为什么会有误导性

Simpson’s Paradox