在纷杂的世界里,除了躺平,我们能做的还有……用数据去理解它

如果我说地理学是看世界的放大镜,你一定不会质疑,但对这句话也不会有什么感觉——这属于正确的废话;如果我说阿富汗与中国不接壤,很可能你会觉得这个作者的地理常识水平不怎么样;也许你还当真不敢确认阿富汗到底是不是与中国共享边境线的国家;如果我问你,塔利班重新掌权,假设你是国家安全的决策者,你要担心的边境安全问题涉及到多少公里,离边境最近的县城叫什么,大概率我猜你不敢一下子说清楚。

没有人能回答世界上所有的地理问题,即便是一流的地理学家和极其狂热的地理爱好者。但有关地理的疑问,对于像你我这样的普通大众有两个特别友好的优点:

1、数据和信息非常容易查找; 2、阅读地图的门槛极其低。

美军从阿富汗撤军,如果你能从嘲笑美国又一次海外用“民主普适理念”殖民的失败到将其解读为拜登政府厚着脸皮被全天下笑话和盟友们的不齿、而实施的战略大转移,撤除所有的海外高精力、高财力投入,一心一意对付中国的崛起,那你是国际政治的敏感群众。这年头关心政治的人不知还有多少,你的敏感让人敬佩。但遇到了这样的世界级大事儿,也不趁机去看看地图,那可能你对数据的好奇心还是不够。

中阿通过这条窄窄的“细条”——瓦罕走廊邻接,边境线是92.45公里
谁愿意在这里驻守和巡逻边疆啊(上图红框里面的土地)
塔什库尔干塔吉克自治县县城,意为“石头城”,离中阿边境最近。卫星影像上的三块运动场格外醒目。从1990年以来,县看守所从未关押过犯人(就没有人犯过法,该说法引自维基百科)

地图是一种数据。任何数据都需要在你的大脑中进行转译,转译成你能理解的形式,有的数据特别难以理解,但地图则不然。人的大脑具有视觉解译的能力,这是毫无疑问的,但空间计算的能力居然也是人脑中天然具有的本领。这两者的叠加——地图,因此而成为人脑最容易接受的复杂数据类型。且不说地图里的上下左右,内外包含,距离远近对比这种简单的空间关系,即便就是那种看起来很抽象的概念如错落有致,还是杂乱无章的空间格局,你的眼睛和地图接触的一刹那,你好像就有了感觉。

数据有时候能让你破解一些谜题,这种破解的过程就能为你带来成就感。我可以肯定的说,这个世界真的很缺一个能破解难题的你。用数据去解决问题,可能是普通人最容易收获成就感的方法。我相信持续有成就感的人,不舍得把时间用于躺平。我选一个小谜题,你试试?某地某时段遭遇大规模饥荒,官方解释是三年大面积旱灾,也有学者质疑没有发生自然灾害。下图是1948年-1970年各城市各月份及全年总降雨量,这张图能启发你怎么用数据探究一下到底旱灾情况如何?你打算怎么解读数据?

1948年-1970年全国地市级城市全年降雨量(用逐月格点数据做统计合并),这幅可在线访问的地图你也可以做。原始格点数据在此

上面地图的形式,可以叫做散点图。我们最最常见到的散点图就是POI(Point of Interests)地图——图中的每个⭕️或者📌是一个兴趣点(你可能会奇怪,是谁感兴趣呢?)。每个兴趣点都有坐标,名字,类别,子类别,代表的数值,这就是一条数据。上图中的每个点坐标代表了中国地市一级城市的中心,点开这个点,会显示每个月份的降雨量。而下图每个圆点代表了中石油所有的加油站的位置。

中石油23000+加油站绘制而成中国大陆的疆土轮廓,在线地图在此

线状的数据你肯定想到了公路,当然还有铁路,河流。我们可以假设每个加油站都会建在路边。路网与加油站一定有对应关系。看看下图路网的分布,在对比上图,是不是觉得加油站比路网密集多了?猜猜其中的原因。

2020年底的中国公路网地图,让哪里是枢纽、哪里连成城市群一览无余

条条大路通罗马。那小路通不通?如果把每个省的省会当做罗马,全省的道路,无论大小会不会都能与省会血脉相连?我们计算省内每个点到省会的最短路径,并将其叠加,就能看出哪里是主干,哪里是分支。

条条大陆通省会——中国每个省的公路交通“血脉”

面状数据大部分都是人为认定的。国界,疆土,专属范围,你可以说是法定的,别人也可以说我不认这个“法”。全世界有边境纠纷的国家多了,不只中印。你都去找来看看,对这个世界的好奇又多了一层。

加油站的“条条大路通罗马”和每个加油站的“地盘范围”(服务区域,在英文的世界里,这叫做trade area)

对上述地理数据的处理还是略微需要一些专业技能的,这些技能从简单到复杂。有的数据通过简单的加工你就可以看得懂,发现规律;有的数据需要专业一点的工作,将其“治理”,去除错误和冗余,进行多维的关联,探索关键的因子,铺陈丰富的图表才能对其进行解读。现在将这种治理工作都被泛化的叫做大数据了。数据解读者的工作,是希望帮助或者影响阅读者对世界有更多样的看法和视角。我用下面几张图,用图下配的文字,简单解读一组数据。

在全国地图上并不能一眼“看透”喜家德和小恒水饺的区域优势和竞争态势
在北京喜家德和小恒明显是东西对立
在大城市群中,喜家德只在粤港澳大湾区有些许数量优势,长三角还未涉足
喜家德在大东北优势很明显,你可以做出判断:要么是喜家德创始于东北(猜对了),要么就是东北人更偏爱饺子(你也可以去东北开饺子馆)

你若是一个数据的好奇者,你不会担心数据的缺乏。数据从哪儿来?没有任何比互联网更好的途径了。如果你说互联网上假话谣言联翩,你对互联网从来都是将信将疑!对此我一点都不能反驳你,我能提供的意见只有:假话和谣言是不以你的意志为转移的客观世界,而用搜索能力去寻找消息的源头,寻找数据去推敲,甚至就是简单的寻思一下这个信息是谁转给你的,这些都是你自己可以掌控的。同样的推论,数据的准确与否也不是我们能决定的,但对数据相信的程度,数据误差(错误)的容限度是不是影响了你的决策,乃至对数据进行进一步的验证,这些也都是你可以自己掌握的。即便测量人心这样难度如此之高的任务,数据仍然可以发挥最大的价值。亚马逊4.4星好评的一本书,讲的是如何用谷歌搜索引擎发现人群(不包括中国人)到底在想什么,爱什么,恨什么,偏见什么。作者说:“创建谷歌的初衷是让人们了解世界,不是让研究人员了解人。意外的结果是,我们在互联网获取知识时所留下的印记却展现了大量真实”。这就是数据的意外价值——数据还能帮你理解这个世界上的人。

《人人皆说谎——大数据,新数据及互联网能告诉我们到底是谁》。想在一个复杂的社会中做个明白人,数据是绕不过去的,击穿谎言,互联网是你最好的武器

到了本文的结尾了,会有人想吧:作者显然是一个数据工作者,可是数据和我有什么关系?我同意,你完全可以声明,这个世界的任何一件事儿,和你也一点关系都没有。我只是想跟你说,这世上还有一些有意思的东西,数据是其中一项。试试看,先从读一点最好玩的数据开始,比如地图。而作为创业者,我的目标是能让大家获取数据简单更简单,能让数据呈现的真实更真实,也让大家对数据的理解轻松更轻松。我也更希望孩子们能从很小就孕育数据素养,喜爱数据,对数据好奇,对数据技术好奇。