数据基石:行政区划不只是历史故事
壹
2024年11月末,当宝哥——网名锐多宝——在公号(kitmyfaceplease4)上发布最新版的中国三级行政区划地图(包括十段线)矢量数据(shp格式)时,我紧贴着桌面上的显示器,呲着牙,笑开了花。屏幕上深色地图映着一张模模糊糊的脸似乎也比平时年轻点。
宝哥不是政府工作人员,而是一个热心的数据爱好者。这三年,他总是要找出一大段时间,从各种公开渠道收集行政区划变更信息,整理成矢量地图数据,免费供大家下载使用。前阵子,我还私信他,啥时候出今年的版本呢。
宝哥这次把从2009年到2024年每年的数据都放到压缩包中供大家下载,我期待着他能一直回溯到1949年,记录新中国行政区划70多年来的沧海桑田。将来全球数据工作者想用到的中国行政区划数据,第一个要想到宝哥,而不是加州大学伯克利分校。
1949年,当新中国刚刚成立时,很多地名还带着浓厚的历史印记。比如河北省的获鹿县(现在的鹿泉区),原本是战国时期赵武灵王获得良马的地方;山西的猗氏县(现在属于运城市改名为临猗县),是周朝重臣尹吉甫的封地。
随着时代变迁,这些古老的地名逐渐改变。有的是为了便于记忆,比如江苏的阳羡县改为宜兴市;有的是因为发展需要,比如深圳蛇口工业区所在的南头公社,后来成为了南山区。
这些年的历史印记被海外工作者记录整理了,并放在Ta们的学校官网上供全球使用。伯克利发布的数据跨度从1949到2016年。我信任宝哥的整理会更有质量,也更准确。当然,我也期待,宝哥能早些发布乡镇村一级的区划,并每年保持更新!
贰
每年我国的行政区划都在发生变更,这些变更官方渠道在民政部的官网。
这些变化背后,往往反映着城市发展的新趋势。有的是为了优化行政资源,比如撤县设区;有的是为了配合产业升级,比如设立新的开发区;还有的是为了城市的能级提升。
从使用者的角度,当然希望既手握历史数据,也能立刻获取更新的数据。如果在现实状态下,不得不按照陈旧的行政区划数据做分析、应用,会给使用者带来诸多困扰。例如:
- 商户和消费者:当某个区域的行政区划发生变更后,如果地图数据没有及时更新,可能会导致商家无法准确定位,消费者也可能找不到目标位置。
- 物流配送:快递和外卖平台如果使用过时的区划数据,可能会影响配送路线规划和时效性。
- 数据分析:对于需要进行区域统计和分析的企业来说,过时的行政区划数据会导致分析结果失真,影响决策的准确性。
这正是为什么像宝哥这样持续更新行政区划数据的工作如此重要。这些数据不仅是行政管理的基础,更是支撑着商业决策和大数据分析的重要基石。
叁
面状的行政区划数据,就像一个城市的"身份证",其重要性往往被低估。
这是行政管理的基础。无论是户籍管理、税收征收,还是选举划分、公共服务配置,都需要精确的行政区划边界。比如一个新建的小区,到底该划入哪个街道办事处?一条新修的马路,应该由哪个区来维护?这些都需要清晰的区划数据。我在公号文章中,惆怅过好几次,人口普查的结果就不能对应到更细一级的行政区划中,实在是一个大大的遗憾。看美国的商业和人口分析,用最细的block,可以做出来多少精细化的应用来?
这是商业决策的关键。电商平台需要它来划分配送范围,连锁企业用它来规划网点布局,房地产商靠它来评估土地价值。这还是大数据分析的基石。人口普查、经济统计、选址规划,都离不开行政区划这个空间参考系。就像建房子需要图纸一样,数据分析也需要一个标准的"底图"。
肆
然而,令人费解的是,这样一个基础性的数据(民政部只是发布了一个包含svg的网页),在中国却没有统一的官方发布渠道。我说的是数据,不是示意图和文字描述。虽然说宝哥可以用这些示意图做一个对应的矢量数据,但毕竟代表的是民间力量,这种权威的数据非常需要权威的背书。我猜测这其中有可能是因为:
- 涉及到部门分工。民政部负责行政区划的审批和管理,但没有测绘资质;自然资源部有测绘资质,但不直接管理行政区划。两个部门之间的协调,往往比想象中要复杂得多。
- 数据开放意识的不足。有些部门可能担心数据泄露会带来安全隐患,有些可能觉得投入与收益不成正比,还有些可能只是习惯了传统的封闭管理模式。
伍
当我们谈论中国从制造大国向数智大国,再到智能大国的转型时,不应该忘记,转型的基础在于那些看似平凡的数据建设。
就像500年前郑和下西洋时的《郑和航海图》一样,行政区划数据也是一个国家治理能力的体现。只不过,现在的"航海图",是由无数个地理数据集构成的电子地图。
好在,总有一些像宝哥这样的民间力量,在默默填补着这些空白。但从长远来看,这种基础性的数据建设,更应该由政府来担当。毕竟,在数字时代,数据就是基础设施,就像高速公路、电网一样重要。
当一个个像素点连成完整的国土图像,当一条条边界线勾勒出行政区划,我们的国家治理能力,也在这精确的数据中不断提升。这,就是数字时代的新型基础设施建设。