新视角再看霍乱地图 — 用等时圈挖掘数据信息
英国医生约翰·斯诺绘制的1854年伦敦霍乱地图是数据可视化领域最著名的案例之一。
先来回顾一下当时的背景。十九世纪中的维多利亚时期,伦敦有250万人口,是世界第一大城市,工业革命正如火如荼的进行,人口还在不断增多,但是城市面貌却远不比今天这样。整个城市没有下水道系统,每天的粪便随意的倾倒在大街上,情况好一点的家庭也只是将整整一层地窖存放粪水,每天等着职业的掏粪人清理污物。所以街道上到处弥漫着臭气和骚味,尽管如此,为了在城市工厂里工作,人们还是忍受着刺鼻的味道。
1854年9月,伦敦霍乱爆发,这只是欧洲第四次霍乱大爆发的一个片段,当时人们一直没明白造成霍乱真正的原因。不过这次疫情爆发与以往不同的是,这次的疫区中心Soho地区距离著名的医生约翰·斯诺医生的家很近。一周之内,整个Soho地区几乎1/10的人都迅速死掉。根据上报的病例的信息,斯诺绘制了一张Soho地区的地图,将13个公共水泵和区域内全部的578名死亡病例的位置标记在地图上,从而注意到了大部分的病死者围绕着Broad Street和Cambrigde Street交叉口的一处水泵。
关于霍乱的病因,当时人们认为是城里的臭气,这就是曾被普遍认可的“瘴气说”。因为臭气一般都在底层人生活的区域,同时他们也更容易得霍乱,这让人们对“瘴气说”深信不疑,政府当时采取的干预措施是清扫粪便,把污水直接倒入泰晤士河。斯诺医生一直都不相信“瘴气说”,根据他自己的实地调查,发现同样位于Soho区,有一家啤酒厂的工人却很少感染霍乱,他走访了这些工人,发现他们很少喝家里的水,而是直接喝酒厂的啤酒,这是一个重大的发现,这让他联想到之前绘制的水泵和死亡地图,更加确信了霍乱的传播一定是饮用了受污染的水。虽然他自己已经非常确认,但是要想说服公众和政府,还必须要到更实锤的证据。
通过调查那口Broad水泵附近的居民,他确定八月底病死的一名5个月大的女婴就是起始的传染源,她的父母直接将洗尿布的脏水倒在了水泵旁边的水沟里,水沟和水泵并没有完全隔离,被病菌污染的脏水很可能就是从水沟渗透到居民的井水的。他再拿出显示病例分布“死亡地图”,连同其他的详细调查报告提交给政府,尽管当局还是高度怀疑他的”水源说“的合理性,不过考虑了时局的急迫性之后还是很快拆除掉了Broad Street那口水泵的手柄。水泵一经拆除,周围的感染人数迅速下降,伦敦整体的霍乱疫情也随之迅速的稳定了下来。自此之后,霍乱病的水源说假设终于让人毋庸置疑,斯诺医生的光辉故事也永载史册。
故事到此就结束了,但是抱歉,我们的正题才刚开始。斯诺医生为什么能通过一张地图就获得巨大的信心去推翻当时所有人的认知,想要知道其中的缘由,我们不妨试着把这张经典的地图看清看透,道理可能自然能就明白了。
让我们循序渐进一层一层展开其中的信息。
第一层,地图上这一圈不规则的边界是斯诺绘制的可疑水泵的邻近区域边界,这条边界非常重要,因为它是根据人们日常的行走速度和愿意花费的时间划定的水泵的影响范围。其中还有一点令人钦佩的是这条边界是斯诺来来回回很多次亲自走出来的。
第二层,有了一个水井的覆盖范围还不够说明问题,不是说有13口水井吗,如果把它们影响的范围都画出来不是更清晰一些?道理上是这样,可是操作上还是太困难,都走一遍的话,太花费时间了,所以我们做一点简化,用一种叫Voronoi图的表示方法来展示一下,其实也就是按距离相等的原则划分13口水井的各自覆盖区域。图中三角表示13口水井,圆点是一例死亡病例。有没有发现P7号水井格外引人注意,病例在p7水井的边界附近有明显的减少的趋势。
第三层,把上一幅图的病例和水井用直线连接起来,反应出更细粒度上的两者的关系。
第四层,之前两幅图都基于一种理想化假设,走路不用拐弯,到哪都走直线。为了更加真实的模拟实际情况,我们将行走的路线从”走直线“改为沿街道行走,同时也遵从等距划分的原则,把13口水井的影响范围重新绘制出来。和前面的地图揭露的信息类似,还是p7水井影响的人最多,我们又向真相走近了一步。
第五层,在上图的基础上,我们尝试如果移除p7号可疑水井,重新看看各个水井的影响情况。这样展示出来的各口水井的差异明显减弱,呈现势均力敌的态势。
第六层,经过前面一番的探查,我们终于发现深藏在这张地图上的逻辑,首先根据等距离切分的假设,把各口水井的势力范围分割出来,然后将简单的基于直线等距离切分升级成基于实际道路情况使用相等步行时间的切分,这样反应出来的水井和病例关系就一目了然了,基于这样一套科学的逻辑,难怪斯诺医生能把这么大的案子破了。
斯诺的地图终于分析完了,就这么一张1854年的老地图,为什么我们至今还要一遍遍地在传染病学,地理学,城市规划,甚至科学发展史和人类文明史的课堂上研习,到了2007年专门记录这起事件的书还能卖成New York Times National Bestseller,然后今天又值得我们拿出来讲,一方面,是这起事件引发了对全人类意义重大的卫生系统的大变革,另一方面则是蕴含其中缜密的科学逻辑。数据不仅是表格里的数字,还能变成带有更多实际意义的地图,地图上的简单展示贴合上对具体问题更加真实的模拟,就能展现出强悍的说服力。一般来说,我们可能并不容易直接从地图上发现我们尚未察觉到的知识,但是一张好的地图能让我们确认自己的原本模模糊糊的想法,更能带着我们的想法说服其他未曾察觉或者模模糊糊的人。希望这篇文字说明白了斯诺地图上『等时圈』来龙去脉,也希望你能用上自己的『等时圈』。