数据在先,应用在后,产业才能涌现

现代国家的高级治理者,无论其所治理的国家大小,没有谁不仰仗数据吧,只不过大国小国都有数据真假和误差难以辨别的苦恼,就是一个GDP,主动造假和被动失真都太普遍了。克强总理离开辽宁的任上以后就不再提克强指数——工业用电量、铁路货运量和银行中长期贷款余额三项指标的加权,个中原因可能是一个国家级别的宏观经济预测需要考虑更多复杂的因素进行更定量化的拟合(辽宁只是一个工业强省),可能是2012年以后中国的经济已经进入新的形态(数字经济和服务型经济),也可能是一国之总理在公开场合谈及自己更信赖的指标,这有不信任本国统计部门和经济学家之嫌——克强总理本人拥有北京大学经济学博士的学位头衔。

李克强指数是《经济学人》命名的。这本很有“经济智慧”的著名杂志,上月末的封面文章《即时经济学——实时(数据)的革命》用一碗方便面来暗示快速获取的实时数据对决策的好处,而做出明智有效的决策不需要什么新创的经济理论。仅仅通过分析及时的数据,获得新鲜的认知,决策水平就能高出一大截。杂志封面上直接使用四个汉字而非英文——即时经济,是因为在获取实时数据和数字货币技术方面,中国已经走在最前列,甚至是远远的走在前方。

一碗没有添加剂(经济理论)的鲜虾鱼板面能强身健体(提振DGP),这碗面就是用实时数据指导的即时经济

文章明确指出西方国家那些老旧的决策体系应该革新了,而一个看得见的好老师就在东方(大陆和香港)。不过作为广大数据工作者一员,看了文章以后的我却没有那么自豪——想要获取及时更新的地球科学与位置数据相关的资源,大部分还是要首选国外的站点。由经济学人杂志激发出我的这份感受并不孤独,巧合的是公号知识分子刚刚发布一篇《数据“卡脖子”,何谈研究话语权》的文章,深刻“抱怨”国内的地球科学数据以保密为由限制共享。文章的逻辑浅显而流露的情感让人扼腕叹息:还说要争夺国际上的科研话语权呢,自己人的脖子都被自己人卡死了,没有数据如何能让科研工作者(文中主要指地球科学方向)做出来一流的成果?

对这种长久存在的弊病,作者做了一些解释。文章引用了海洋数据研究领域某学者的话:“国内有很多人去做测量,但没有专门去做数据的,因为做数据的人在现行的体制下,很难活下去”。常年使用NASA(美国航天局)、USGS(美国地质调查局)、NOAA(美国国家海洋大气局)数据的我,和该学者跨时空的共同想象了一下,欧美这些组织的数据团队几十年如一日的处理数据,改进数据质量,让分发和共享更高效,从而保证大量地理空间数据的国际共享价值实在是让人敬佩。我们只是心里默默的感谢一下那边的科学工作者?或者到底能抱怨点什么呢?还是就偷偷羡慕羡慕人家的机制?然后若无其事的下载数据就完了?

先抛开我们自己的问题与困境,我倒是很好奇,美国、欧洲的政府机构和民间组织,其中的数据工作者哪来的动力去坚持数据共享?又是怎么积累的数据本领,将这么大量的数据进行处理并提供基础设施供全球下载使用?而相形见绌的是,我们作为航空航天大国,即便就是在在没有任何“安全保密压力”的数据领域中,也没有做出引以为傲的全球级哪怕是全国级共享成果,更别说为全人类的科学共同体贡献资源了。

2021年11月15日-16夜间全球的灯光影像。NASA提升了月光校正质量,更新了夜光遥感影像数据产品,每天都将成果发布成OGC的标准格式并提供原始数据的下载
同样是做夜光产品的珞珈一号,提供的下载数据只有2018年10月份的(demo数据)。在网站说明中,全球产品是15天才能处理完成

NASA、USGS、NOAA还只是数据共享首当其冲的几个部门,而在美国大部分的“部委”会将它们自己生产的、投资购买的、处理过的数据共享出来,更不要说还有不胜枚举的大学、非盈利组织。即便这些机构中可能没有很专业的数据人才,很多组织就是选择简单的将数据放在亚马逊云、Box网盘或者GitHub中,也不需要注册,直截了当向全球开放。就选一个例子:美国农业部的NAIP数据集,从高分辨率的各种遥感影像到高程、土壤、水文、气象、土地利用,几乎就是一个巨大的全美国基础地理的数据宝库。这里面很多数据可是美国农业部掏腰包从商业卫星公司购买的!提供出来,没有任何手续,随便下载。

美国农业部的国家农业影像计划(NAIP)公开数据集网站,点进去链接即可下载
覆盖全美的分辨率为1米的高程LIDAR数据(已制作为山影hillshade图)
上图同一区域的谷歌地形(Terrain)图,对比一下30m的分辨率
2020年覆盖全美的1m分辨率影像。2021的成果即将上线,要是有中国国内的数据该多好

如果你有一定的数据处理能力,在上面提到的三大网站,你都会欣喜的找到可以展示你数据想象力的资源。大部分对地观测数据都是全球性的,你也可以找到你的家乡。我在美国地调局地球探索网站上下载11月10日左右大湾区的哨兵2号影像,用第2、3、4波段合成真彩色,并用第8波段做水色的增强。30分钟的操作,过程不详述,结果看着可爱。

美国地调局提供的全球对地观测类(遥感卫星影像)数据下载入口
2021年11月10日哨兵影像,大湾区部分截图。南沙集装箱码头,宝安机场和正在建设中的“深中通道”

不仅物理的世界趋向全球互联互通,信息的世界更是没有国界,更何况无论是一带一路的倡议还是我们国家的大战略,都是拥抱全球化。在这一点上,反而疫情之后的西方国家并没有中国那样的积极。国内在很多行业上不想内卷都不行,只有走出去面向更广阔的世界才能创建新的增长,我们为自己选择的路线就是在努力促成更高效的能量流动、信息流动。虽然我们在数据共享方面乏善可陈,尤其是对地观测领域,但也有一些让人兴奋的成果。

中国科学院数据云,可以找到一些专题性的数据集。很多数据是科学工作者分享出来的

维护数据、分享数据本身是个技术上要求比较高的手艺活,即便现在已经有了很多云基础设施可供选择,针对某个专题类型、某种特定的应用,也需要长期积累的数据经验成为这个领域的专精技能。在国外,从政府等公开渠道收集数据,将其整理成一个可商业化的成果,就是大数据领域创业中的一大赛道。极海作为技术支持单位为中国疾控中心的境外疫情数据分析和风险评估平台提供数据维护服务,在项目验收中,专家认可有多项指标做到了全球最高水平。

境外疫情数据分析和风险评估平台为疾控系统的科学工作者不仅提供报告、图表,也共享全球级别清洗后的大量数据

从美国的经验来看,一方面政府公开数据促成了很多创新的数据商业模式,也培养了大量的数据工程师成为新时代的尖端人才;我国的大政方针确定无疑为我们的未来定下了全球数据竞争力的方向,但只有开辟了数据的“源”,才会孕育出数据应用的“河”,最终才有机会汇成产业的“洪流”。这个道理谁都明白,但为什么到如今无论是数据的使用者还是拥有者都抱怨做不好共享呢?我尝试去探究原因,大概有如下四点:

1、对开放和共享的文化需要时间去适应,去习惯,去热爱:

免费共享意味着不求利,甚至不求名,从人性上是在追求马斯洛需求层次高阶的自我实现。刚刚进入小康社会的中国普遍现状,在追求自我实现阶段的人性密度还不够,可能我们还需要几十年的好日子来强化这种文化习惯;

2、对安全的不自信:

对地观测数据,也就是带有地理位置的数据很多都是保密的。保密的出发点很好,是个谨慎的态度,但也是一种不自信。1M高程的数据象美国那样开放出来,测绘领域会有很多安全专家要抓狂的。如今中国老百姓甚至都普遍有了道路自信、理论自信、制度自信、文化自信,但国外的整体意识形态环境对中国并不友好,这就造成一种安全上的不自信;

3、有关数据共享的政府制度创新不够:

美国和欧洲国家在政府数据共享上也是通过制度驱动的,比如纳税人有权力要求各级政府机构提供数据。为了降低数据离线邮寄的成本,政府就有动力将数据在线发布。联邦政府也设置首席信息官,并有专门的考核制度,要求各部门必须将数据共享,否则考核就达标。这一点,我们的政府制度显然相距甚远;

4、数据基础设施的软实力和人才的投入才刚迈出一小步:

我们在云基础设施硬件的建设上已经是全球进步最快的国家了,但数据的软技术人才密度还差的很。一个组织即便有不受任何约束发布数据的自由度,有多少单位可以自信满满的说,我们有这个实力维护好这份数据?有多少政府机构的技术人员愿意自己动手、自我学习提升数据的技能?

对中国数据开放共享的难题,不必多感慨、抱怨,在数据大潮中破浪前行的你我也或多或少知道其中的症结所在。既然国家要求我们在新时代用民族复兴的视角再选择个人得失,最后我也厚脸站在国家民族的高度上提三点粗浅建议吧:

1、建立一个国家级的数据委员会,统筹决定哪些数据的哪种共享机制和保密要求:

保密是个可以自由放大缩小的弹簧,不能让小群体或小部门来任意指挥甚至借以侵占数据权;

2、为新成立的大数据中心设定共享的要求标准:

借助一些行为经济学的理论方法,用助推(Nudge)的方式,比如大数据中心的默认成果就是要共享多少级别的数据,否则就不要成立了;

3、设立数据共享和开放的奖励:

每年设定国家级、地方级的数据共享奖,为那些默默“做数据的”的人创造成就感。