别指望三胎了,还是请统计局为数字经济贡献点剩余价值吧

“三胎”的热议也就是一天,可能因为第二天是儿童节。很大的节日。

在梁建章老师的眼里,人口是国家大事中的大事。明着鼓励也好,暗里助推也罢,那得靠国家级的政策。为了倡导出好的政策,人家梁老师着急的奔走呼吁。而我等普通大众,把三胎的放宽当娱乐新闻。其实这也正常,据说一切行业都是娱乐业,或者都将是娱乐业,我看这个趋势越发的显著。只不过娱乐行业常常催生不好的情绪,本次三胎新闻,就是个坏娱乐,在朋友圈、周围的小朋友中,我没看到听到备受鼓舞的言论,反而好多年轻人互相受到负面情绪的感染:对,咱们这一代真是苦!谁给“你”生?

在梁建章老师的眼里,人口是国家大事中的大事。明着鼓励也好,暗里助推也罢,那得靠国家级的政策。为了倡导出好的政策,人家梁老师着急的奔走呼吁。而我等普通大众,把三胎的放宽当娱乐新闻。其实这也正常,据说一切行业都是娱乐业,或者都将是娱乐业,我看这个趋势越发的显著。只不过娱乐行业常常催生不好的情绪,本次三胎新闻,就是个坏娱乐,在朋友圈、周围的小朋友中,我没看到听到备受鼓舞的言论,反而好多年轻人互相受到负面情绪的感染:对,咱们这一代真是苦!谁给“你”生? 若没有些出奇的政策(比如生二胎给老大高考加5分,生三胎给老大加15分,给老二加10分。老三呢?等老四老五的政策吧),指望年轻人主动多生来充实未来的国家“人口库”,这事儿铁定是没戏了!放眼全国,在所有的人口专家、社会学家、经济学家中,我敢说没有一个人认为放开了人口就能增长。但对未来我倒是一点也不悲观,我的逻辑非常简单,拆了三个假设就可以了:

1、人是固定位置的吗?将来非得中国人呆在中国?

2、将来一个人的产能和消费与现在是一样的吗?

3、将来还是靠“人”来生产、消费和孝敬养老吗?

像我们这样的理性乐观派们,从来都是活在当下。当下我们关心什么?就是现在的人该干点啥。自从撤销了计生委,关注人口的事儿,好像和统计局关系最直接。虽然统计局不管生孩子,但统计局得掌握数据:孩子生在哪儿了,孩子去哪儿读书了,孩子去哪儿工作了,并且有责任也告诉一下全社会。这次七普首批发布的数据,没觉得比十年前有什么典型的“大数据突破”,哪个城市、哪个区县的二孩生的多,哪个区县的孩子们喜欢干什么,在哪里干什么,这些数据值得统计。但是我们没有看到这样的结果发布。我希望我的美好愿望是真的:数据呢,领导的领导们都掌握,就是不太方便对公众开放。

不是因为我是个特别热情的数据工作者和数据爱好者才这样看重七普的数据,而是因为从整体上提升国民的数据素养,人口普查类数据用作启发、推广、推进,是最佳的资源,既然国家大政方针已经定了用数据能力、数据资产和数字经济与对岸进行躲也躲不掉的竞争,那么就得把数据竞争这个底座的做的宽,做的厚。

我做个小测试,下面五道题,你能答对几道?我把答案放在文末了,别着急看答案,先猜猜你对人口数据的感觉。要是全答对了,佩服你。说个别人的正确率,第三道题,答对的美国样本人数是9%,而韩国只有4%。

1.在全世界所有的低收入国家里面,有多少百分比的女孩能够上完小学?
 A.20%    B.40% C.60%

2.全世界最多的人口生活在什么样的国家?
  A.低收入国家 B.中等收入国家 C.高收入国家

3.在过去的20年里,全世界生活在极度贫困状态下的人口是如何变化的?
  A.几乎翻倍  B.保持不变  C.几乎减半

4.全世界人口的预期寿命现在是多少岁?
  A.50岁  B.60岁  C.70岁

5.今天全世界有20亿儿童,他们的年龄从0到15岁,那么根据联合国的预测,到2100年,全世界会有多少儿童?
  A.40亿  B.30亿  C.20亿

这5道测试摘取自《事实》这本书列出的13道测试题。作者在书中主要想告诉读者的是,这个世界没有那么差,你理解的世界不是真实的,至少是有偏差的。但我想借着作者的理念,看清一个“事实”:人脑天生对数字并不敏感,需要大量的强化训练,需要大量的数据表达和数据故事,促使我们用数据看清世界的“事实”。这件启迪大众的工作,值得我们毕生去做。

汉斯老爷子的临终作品,值得再读,你会对世界乐观起来

说回到人口普查,这件大事儿全球正经一点的国家政府都会去做,也差不多都是十年做一次全国范围的普查,十年间会穿插小范围的样本调查,尽可能做到准确及时。目的也是很显然,即便是再没有计划的政府,也需要一本账,知道哪个地方,有哪些人力资源,Ta们会有多大的需求。怎么做好人口普查工作,以及普查后的数据能怎么用,全世界有范本可以借鉴。尤其是这个范本还是来自人口多、面积也大的大国。人多地大流动大,从地理位置这个角度切入的数据分类就显得特别有价值。所以在这个范本中,因为有了地理这个维度的分析,人口调查局的工作显得那么的有意义。

美国人口普查数据用地理空间实体组织的结构(来源:美国人口普查局官网

我认为我们统计局的专业人士对美国人口普查的技术细节一定都是了解的,毕竟那么多开放的文档和数据摆在那儿,美国做人口普查也有上百年了,数据都是非常透明的。即便可能有一些国情、历史和人口特征的不同妨碍了我们照抄对方的经验,但至少有一点,我觉得还是挺让人惋惜的。这一点就是数据的发布。如果有大量的数据释放出来,无论是数据小白还是数据专业分析师,能做多少成果啊?我在本文中,就做个小例子,展示一下像我这样的初级Python水平的爱好者,能做出点什么人口数据分析的成果来。

先从获取美国人口普查数据开始。当然官网是第一途径了,不过这么巨大的数据宝库,肯定探索起来不容易,得需要足够的耐心去研究。不管你关心什么,把握一个核心就可以了:找到在哪个地方(where)的哪类人口特征(what)的数据表。然后将其下载,慢慢探索。在这里,人口特征的表和地图是分离的,但它们之间有唯一的字段名字可以将其关联起来,只要理解了这一点,你就可以做各种专题的地理位置分析和地图输出了。

因为美国人口普查数据是免费的,所有就会有大量的下游生态围绕这个数据再加工,以提升数据的可用性,将其简化给非数据专业人士使用。我找到一个比人口调查局官网更简单下载数据的网站,数据的查找和下载更加的简便。

IPUMS是托管在明尼苏达大学的世界上最大的人口数据库,免费为全球研究人员提供尤其是美国的人口数据。在本文中,我们选择其下NHGIS(美国国家历史地理信息系统)探索和下载数据。NHGIS并不提供数据分析、制图和报告的工具,唯一的目标就是让你自己下载,自己折腾。NHGIS相比美国众多免费人口网站突出的亮点是:

1、提供了大量的地理信息数据;

2、最早到1790年的历史沿革;

3、可以将统计类型的数据,在多个时间序列中与地理位置关联。

IPUMS(Integrated Public Use Microdata Series)包含了众多人口类型的数据,完全免费

之所以选择NHGIS找数据,就是因为操作上特别简单。注册什么的,我们就不说了吧。需要考虑的过滤器就四个:地理(行政级别),年份,主题和专项数据集。它们之间会有交叉的关系,但是不必完整的在四个过滤器中都做好选择,其中任何一个都可以直接找到你关心的数据,并提交下载。右上角的购物车栏里显示了你选择的表格或者GIS文件,continue后都可以到达提交页面,等待下载的链接生成。

四个数据过滤器和数据购物车
可供选择的行政级别及其地理边界
在任何一个可供选择的数据列表中,都可以看到这份数据的“热度”。热度越高意味着被下载的次数越多

因为极海一直在致力于维护一份高质量的中国街区数据,所以我这次测试,选择的是美国人口普查最小的地理普查单元——街区block来做参考和对比,分析美国城市中白人、黑人、亚裔人的居住地分布,用可视化直觉的方法判断是不是不同族裔趋近于本族裔聚群生活。借助NHGIS的数据类型,数据处理的逻辑非常简单:

1、筛选街区Block的轮廓(多边形)数据和街区级别的各个族裔(Race)的居住数量(这一步在该网站上搜索下载);

2、从第一步获得的街区数据都是以州为单位的,所以需要用城市边界将街区挑选出来(这一步需要写程序或者用GIS工具);

3、将两个街区的数据集(轮廓多边形和族裔数量)合并(这一步需要写程序或者用GIS工具);

4、将合并的数据可视化表达(这一步需要写程序或者用GIS工具)。

我本人作为一个GIS专业工作者,肯定对GIS工具不陌生,这一次想尝试一下用Python做所有的数据处理工作,发现一点也不复杂。就更加理解了,为什么朋友圈中有那么多文案在卖Python的课,普通人成为数据小咖进而大咖的最佳利器。当然这里面一定有需要掌握的基本知识,而对于已经具备Python基础的人,做地理数据的分析,需要多一点GeoPandas的学习就好。

西雅图的白人分布(红色越亮的block,白人比例越高)
西雅图的黑人分布(红色越亮的block,黑人比例越高)
西雅图的亚裔人分布(红色越亮的block,亚裔人人比例越高)

从上面三幅地图结果中,可以看到西雅图的三类人群还是处于挺明显的“隔离”状态,大部分的“疆域”都是白人的天下。而在德州的休斯顿,白人和黑人也是有比较明显的聚类,但亚裔就不那么明显了,主要还是因为亚裔人少。休斯顿的不同族裔分布,我用了不同的颜色表示。

本来以为加州的洛杉矶华裔族群能有更多的区域聚集,但从大面积上看,确实属于“少数裔”群体。

上面用于分析的维度,我选择的是族裔,你可以想象将其改为人口结构、收入、房产价格、二胎比例。。。在NHGIS中找到对应的数据,你也可以做各种尝试。这不是一篇Python练习课,所以不会介绍代码处理的细节。即便是地图可视化,我也就是使用了最最基本的matplotlib,如果将数据导出到极海云中,可以做更有趣的地图。本文的目的是想再次强调:

1、人口普查数据是个宝藏。花了那么多钱做一次普查,数据放在库里面陈旧,太可惜了;

2、怎么挖掘数据,得借助民间的力量;民间不只是有力量,更大的价值在于思维的多样性,多样性可以创造巨大的创新点;开放数据带来的乘数效应,领先者已经替咱们实践过了;

3、地理、位置、地图能为人口普查数据带来极大的增值,至少可以用地图可视化吸引年轻一代并带动全民数据素质的提升,这也是统计局为中国数字经济的发展所应该做的贡献。

《事实》五道题的答案,和你猜测的一样吗?
1、c;2、b;3、c;4、c;5、c。