七普,这一次,咱们好好帅一票吧

过了十一国庆,祖国的天南海北,家家户户是不是都收到了一件小礼物?一位态度和蔼可亲的工作人员(多数是姐姐和阿姨吧)敲开大家的房门,认真的询问家庭成员的身份证、职业、教育程度。。。有关人口普查意义的宣传以及号召全体公民认真参与的广告片,相信大家都多多少少听过看过。对当年第六次人口普查还有印象的“上了岁数的人”更是不会陌生,只不过这一次普查员手中的纸质笔记本已经换成了平板电脑,而普查的内容几乎还是一模一样的。

全世界差不多所有国家的政府都会组织这项工作,也大概都是10年搞一次。我查了一下联合国的数据,今年开展人口普查工作的国家颇为不少,就是在2020年当下被疫情折腾的精疲力竭的时间点,甚至像亚美尼亚这个被突然拖进战争的黑天鹅之中的国家,也按原计划进行了调查。足见这项工作的重要意义。

联合国统计司网站上关于亚洲国家的人口普查时间安排,好大一大部分国家都是在今年进行

在古代,精确的人口普查结果意味着国家税收和预算的多寡。史料研究显示,隋炀帝的大业王朝兴盛,因为普查做的好,败亡也是因为普查做的太好了。如果我们习惯用单一原因解释世间现象,那都可以说隋炀帝千年的污名是人口普查造成的(单一归因思维是个应该努力克服的坏习惯)。现代的政府管理者,对普查数据的希冀,早已不是古代君王那种收割百姓财富的一元目标了,普查数据用到了众多国计民生决策的重要领域,国家的领导人们也可以通过普查数据,对全国的关键情况做出更科学的判断。比如这些年但凡关心东北兴衰的民众张嘴都能说出东北人口流失严重,但要较个真,到底流失了多少,哪些城市最严重,某座城市的哪些地区更严重,这些就不是靠“走在大街上,看到都是上了岁数人”那样的感性认识,得有具体的数据来支撑,这就得需要严谨的调查。

我始终认为普查出来的数据成果被极大的低估了,或者说利用率太低了。普查出来高价值部分并不只是分年龄段人口的数量,还包括了在普查过程中应用的方法以及人口之间的相关关联。对普查数据的再加工利用,是全球一大票数据工作者的创意魔术棒,Ta们会从中发掘出可以用于解决实际决策问题的数据洞见。但即便是数据非常开放的英国和美国,还颇有一些专业工作者从来都没有尝试过用普查数据做些什么。

在英国国家统计局举办的一次研讨会中,统计与会者是不是“用过本国或者其他国家的人口普查数据”,有31%的“专业人士”没有用过人口普查数据

不要说上到国家级别,一个城市的领导者首先就很需要普查数据作为提高城市效率、满意度、幸福指标的依据。在中国,如今几乎所有城市的新一轮空间规划中,都会将提高居民城市生活的幸福度作为一项重要的目标。如果就近上学、就近医疗、就近广场舞都不太容易实现的话,实在是很难谈及智慧城市的好处。调查家里有几个老人,几个孩子,这是真真切切的事实结果,用不着使用社交数据、运营商数据做推算。即便在美国,Facebook覆盖的人群数量加上其先进的大数据衍生、推演方法,基本上可以替代大规模普查的“笨办法”了,但美国统计局也没有说直接依靠Facebook或者Google来公布代表政府口径的人口数据。

美国这种早早就开展了现代普查工作的国家,已经积累了大量普查的经验,而且结合一些区域性的专项调查,比如家庭的收入、支出,经过推算,可以得到一些和民生关联极大的决策参考。根据2017年的数据,联邦政府为纽约州的每一个人分配4352美元的医疗保险和补助(Medicare和Medicaid),这个额度是怎么计算出来的?和别的州是怎么对比的?这些决策得靠普查作为依据。

根据普查的结果,纽约州的联邦预算投入到社区中的人均费用(一张图看懂了美国联邦政府的赤字估计只能是越来越大了)(原插画作者Mona Chalab

如果调研数据工作者,对我国第六次(2010年)人口普查有什么重大遗憾的地方,我的首选是:在空间尺度上分辨率不够高。换句人话是:普查人口集聚的单元要比街道这个行政区划更小的尺度,甚至应该是小的多的尺度,在城镇里最好能达到到小区、街区的尺度。原因显而易见,越是地理位置相近,人群越具有相似的属性。生活着大城市中的人们都能想象出你和同在一个街道生活的人有多么的不同,但是和你住在一个小区的人,有不少相似的特征吧。

英国人口普查的地理单元,每个单元都有特定的代码,这个代码可以用于数据的关联

人口普查是一个特别“地理空间”的工作——这是一个朴素的思考结论。因为普查是以人口住所为最基本单元的,相当于把每一个人打了一个基础的标签——你住在哪儿。普查数据本身具有的地理特征,是一个对数据进行筛选,对比和钻取的重要过滤器。正因为有了这样的一个基础标签,才方便将不同维度的数据进行彼此关联。美国人口普查过程中需要公民填写的问卷也很简单,就六个问题:

  1. 2020年4月1日在该房屋居住的人数?
  2. 所住的房屋是拥有或没有抵押或贷款,还是租用或占有而没有交租金?
  3. 家里某个人的一个电话号码?
  4. 家里每个人的姓名、性别、年龄、出生日期和种族?
  5. 每个人是西班牙裔,拉丁裔还是拥有西班牙血统?(特别关注西班牙裔哈)
  6. 每个人与家中核心人物的关系?

但却由此衍生了那么多可用于商业、政府、个人生活决策的大量数据,虽然也是通过对各种调查的结果进行整合,但是我认为能实现这种衍生的关键是因为具有细致的地理单元。

Esri通过普查数据衍生的Tapestry Segmentation(图中不同的颜色代表了不同的人群生活方式,相当于街区画像,用定性的描述为街区做人口属性的定位)

极海创业的这些年,一直在努力制作能用于更小统计单元的“物理网格”,目标就是希望能够通过空间维度,将更多属性的数据聚集、关联和衍生。极海的自然街区数据以路网分隔为基础,已经覆盖全国所有城市,根据2019年底全国的路网情况作了更新。

极海利用机器学习制作的街区

我一点也不觉得以地理单元格子作为数据交叉的一个媒介是什么奇思妙想,我辈能想到,统计局的各位专业人士早就想到了。而且我也曾接触专业人士从而了解到,在统计局内部的工作系统中,本来就是有很细的区域概念和实际的边界,而且所有的普查结果也都根据这个边界进行了空间化,只是在发布给其他单位和公众使用时,“不方便”提供地理数据,甚至街道级别的数据在六普中也都算作一定保密层级的。我不知道统计局的官方对这次七普的数据成果怎么考量,如果如我上次博客所倡导,大方一点,或者说站在另外一个角度——让数据更有价值去看问题——成果还是需要鲜活的释放出来,让大家自由使用,再加工,产生创意。这是数据技术进步的不二法门。国家促进大数据产业的发展,那就需要有更多的数据内容,产生更大的数据影响力。这次七普的数据,可以作为一个巨大的资源宝库。站在国家的角度,得多希望由此能带动产业的一大进步啊!

美国数据的开放性,催生了多少数据产业的发展和繁荣
用数据启发无穷多可以组合的视角

这次普查,给了国家统计局及各城市、地区统计局一个极大的创造意义的机会:为中国的大数据科技创新之火添柴加油——既然数据技术已经成为国家的战略重中之重,一个和数据这么直接相关的部门不正是遇到了一个自我实现的良机吗?即便就是一个小小的工作改进,将普查结果在更小的地理单元上地图可视,就能够带动一大票对城市发展的洞察。

英国统计局的普查成果公众查询系统,Datashine——数据闪耀,这个名字起的真好

如果数据的政策能更开放,我等数据的狂热爱好者,也能创建出无数有关地理数据的应用。我们的创意也绝不会输给国外的创业者。

Morphocod用数据探索城市,测量城市指标

极海盼望着七普数据的出炉,盼望着能用这套数据做出创新者的贡献,不负这个时代,明亮的闪耀着。Data shine,Geohey finds