时空大数据——开发者的新机遇

一年一度,泰伯的WGDC(world geospatial developer conference)——全球地理信息开发者大会,在新的十年如约回到北京召开。今年年初开始全国多地的疫情反复扰动,能将新老开发者聚集一起面对面的交流,在2022年的夏天,这样的线下会显得弥足珍贵。忆往昔,2012年的首届大会,“老开发者们”正期待着全球化进入2.0时代的大红利——国产技术可以龙腾虎跃的出海,国外技术也可以丝丝顺滑的进来;那时候也担心着移动互联网全面打破地理位置对人类的局限——位置数据因此不再重要。十年过去了,全球化却发生了巨幅的退潮,大小地理边界正在垒成高耸的城堡。位置信息,虽然不能说比2012年更金贵了,但开源情报,高频监测,供应链安全,机器智能决策,确实也在给位置数据赋予新的涵义。这是一个坏时代,也是一个好时代。

看到了一些新机遇,想说给你听听

我在今年的会上参与了开发者星球论坛的主题演讲,题目就是本篇文章的标题。在台上的屏幕里我展示了极海做的一些数据分析、可视化、共享以及服务用户的例子,数据上的有些“惊奇疑惑”还得到了行业专家的解释和指点,感谢这些专家们!真是一个意外之喜。也更让我对数据开发者的美好未来憧憬绵绵。

这些例子,单单在极海为CDC全球疫情数据分析和风险评估平台中所汇集的航班、航线数据分析中,就发现了一些有意思的洞察:

和中国大陆通航最密切的城市,第一名是香港,第二名是台北。中国台湾和中国其它各地即便在疫情中依然保持紧密的联系。
俄罗斯的国际航班从2月底骤降,但和亚洲国家的联络持续保持小幅增长。
全球拥有国际空港最多城市的美国,其数量远超过其它国家。第一大“国际航班”城市是伦敦,第三是伊斯坦布尔。足见土耳其的在地缘政治中的关键位置。
美国军机在冲绳基地附近的轨迹重现。其中靠近我东海附近的方形轨迹由美海军改装而成的Beech C-12 Huron系列机型,执行特种侦察任务。
这些任务飞机包括Beech C-12U-3 Huron;Beech RC-12X Huron;Beech UC-12F Huron。图为UC-12F@Huy Do(jetphotos.com)
在美国本土的轨迹中围绕太平洋舰队的基地圣迭戈和围绕大西洋舰队的基地诺福克以及美军战略司令部的奥福特较多。

上面的这些例图结论,只是通过我们汇集的航班及飞行器的轨迹而得,虽然总数量的条目不足一亿条,但能从任意时间段内对任意属性进行统计,看位置,看变化,也很有大数据的意味了。

时空大数据这个说法,这两年在测绘地理信息行内出现的比较密集紧凑,有点给不再新鲜的大数据增加点酌料的意思。时间和空间对于现实中的各种数据来说,也都算是自然而然就能想得到的维度。如果按照宇宙二字的中文定义——“宇”代表无限空间,“宙”代表无限时间,从广泛意义上来说,宇宙中任何事物都具有时空属性。我演讲的主旨,并非对时空大数据及其平台有了什么新的定义和创见,而是想强调,在这个好坏兼有的数据时代,对开发者来说,真得考虑储备一些核心竞争力的技能了。题目是机遇,内容本质是挑战。

在自然资源部的官网上,对时空大数据的定义是:基于统一时空基准活动或存在于时间和空间与位置直接或间接相关联的大数据。如果按照这个定义,测绘地理信息的每一条数据都在这个范畴内。我们作为地理信息的从业者,为自己打一个漂亮的行业标签,当我们介绍自己工作的时候多二条:时空大数据规划师,时空大数据开发者,也没有什么不好的。但我是不太赞成什么规模的数据都往大数据上靠拢,尤其是那些看起来花哨,但并不具有多大处理难度而且也没有超越常规认知的数据。好看的图表组合是数据可视化的一个表现形式,有漂亮的图表并不意味着数据之大,同样的,有地理位置、时间属性也只是为数据增加了一个维度,时空相关也不能算作时空大数据的充分条件。

比如下图,用QS去年发布的2022年全球1300所大学的排名以及分项指标做出来的图表,你会认为这是“大数据”吗?我觉得肯定不会。因为你也会自然联想到,1400条数据,能有多大的量呢?Excel就处理的明明白白的。

2022年清北挤进Top20,从图表上看国际化的两项分数差距较大。原数据来自QS官网,图表由Fred Najjar设计,笔者略修改。

如果把这些学校的位置都落在地图上呢?你会觉得这就是大数据了吗?也许感觉能更好玩一点。如果把其它年份的排名也加上?有时间、有位置了,你觉得就算是时空大数据了吗?貌似符合自然资源部官网的定义了,但我仍然认为这离真正的大数据还很远。

2023年的排名,北大位列第12名,超越了清华。但从地图(在线访问)上看,中国还是太空旷了(如果想获取已经标好位置的原始表格数据,请联系小编)

如果未来数据概念泛化了,所有的数据都会被叫做大数据,那我们可以不去追求精确定义。但在当下,全球数据行业还是有一个普遍的共识。即便不必将大数据的那几个V拿出来再老生常谈,大家对大数据及其技术的关键特征还是有一些狭义的要求:

1、常规手段难于处理:需要具备对一定量级以上的数据有软硬件上的特殊能力,要求在一个比较短的时间内获得处理的结果;

2、普通人能使用、理解其表象和内涵:大数据这一领域产生和发展的动力,是要促使更多非专业人士能操作、再加工大数据的基本成果;

3、带来跨行业的价值:大数据的目的还是要解决小数据不能解决的问题,尤其是能带来跨行业的影响力,甚至是为全社会增值。

当年一个数次濒临倒闭的创业公司keyhole其产品EarthView之所以能被谷歌亲睐,并最终在谷歌手淬炼中成为一个时代最牛叉的产品Google Earth(及后续的Google Earth Engine),绝对是在大数据领域的一个传奇典型,上述三点特征全部都具备:将从公开渠道获取的、从卫星公司购买的巨量数据,处理成全球人人都可以免费使用、可以理解再加工的地球照片,并在各行各业开创了前所未有的价值。在今年WGDC会议上,特邀嘉宾跨界导演方励在与李德仁院士的对话中,盛赞Google Earth使他这个不必具备专业遥感影像技能的电影人,实现了他导演工作上天入海式的技术提升。

如果时空大数据还要有个“挂靠的上级部门”,而且这个上级部门特别需要将其发展成为一个拉动新经济的增长点的话,我倒是建议这个部门集相当大的引导资金的力量,打造一个类似并超越Google Earth、让全球用户能免费使用的产品;但如果时空大数据在咱们国家只是从属于数字经济发展这条大脉络的一条分支的话,而这个大脉络是围绕“互联网+”来赋能其它行业,那现在看来这个上级部门,不是自然资源部。

在七月份刚刚新设置的数字经济部委级协作机制中,参与的单位居然没有自然资源部。在国务院办公厅为该制度定下的职责里,明确了这些联席单位(会议)要促进大数据的发展:

推实施数字经济发展战略,协调制定数字化转型、促进大数据发展、“互联网+”行动等数字经济重点领域规划和政策,组织提出并督促落实数字经济发展年度重点工作,推进数字经济领域制度、机制、标准规范等建设。
在7月11日国务院办公厅通知发改委的国办函中,建立数字经济发展部际联席会议的单位并没有自然资源部

在7月11日国务院办公厅通知发改委的国办函中,建立数字经济发展部际联席会议的单位并没有自然资源部 看到这条新闻,我这个时空大数据的开发者一阵心绪荡涟漪,最触动我的地方是在数字经济这个大框架下,时空数据必须要跳脱开行业的自嗨,广泛的连接到其它领域中,到数字的大海中去泛舟,才会有乘风破浪的机会。而作为一个开发者个体,决不能限于一种单一的框架,会用某个单一的GIS平台,能调用某种单一的API,配出一副地图,做一点Web应用的开发,这只是地理开发者从“生”到“熟”的转换之旅,但在数字产业中,你还需要的是“通”和“巧”:

1、从等数据到找数据

数据的开发者要理解数据的内涵,从后台到前台,培养自己的全栈能力,最先要做到的是对数据的敏感,能找得到、看得懂各类专题数据站点是如何组织数据,如何发布数据,以及如何阐释数据的。能储备自己的数据资源池,精炼数据的“搜商”,能变通的用衍生数据、另类数据替代直接数据。

我们将“找数据”开发成一种系统性工作,长期维护,高频监测全球级别的位置数据

2、从一招鲜到样样全

处理数据的工具包、开发包,没有最全,只有更全。做不到样样精通,要能做到大体都听说过,知道怎么去找学习资料。工具类型的表格、BI、GIS软件不必说了,python、SQL是必备能力,各类专项网站的API、插件、数据成果,要形成日常的工作习惯,定时触发更新自己的信息库。“技能样样全”的目的是用最短的时间,快速得到数据的成果,让自己有理解,让客户(可以是最终用户,也可以是你的同事)有认知。

我们将用户需要的全球数据在4个小时内处理成专题成果,在线发布,供用户快速识别数据质量和维度,验证需求。

3、从绘图者到洞察者

地理数据的区别于其它类型数据的特征就是能用地图可视化成果。每个开发者要能随时将自己的数据转化成地图,从图片到notebook的文档,再到在线交互的应用,都可驾轻就熟。随时、任意格式——这两个要求一点也不过分。这还是基础能力,进阶要求是得走在用户前面,先行探索数据表现出来的现象正常和异常,可能的规律和模式。统计方法和机器学习是如何也绕不过去的关键知识。

我们将粤港澳大湾区的企业按位置进行“聚类”,识别产业集聚和分布,用自动可理解的交互方式方便决策者探索数据。
我们将用于对标的美国新数字产业集中的城市,分门别类进行分类统计,洞察其高效或低效的城市经济模式。

写在最后的总结:

数据业最有望成为第四产业——从各类生产生活的场景中获取数据资源,然后把它们存储起来,用特定的算法对它们进行加工,这是一种全新的、不同以往的生产活动。而且,这种生产活动的产出,也就是各种数据产品或服务,能够应用于传统的一、二、三产业,帮助它们提升效率。数据业能带来社会各个产业的阶梯型生产力提升,也能引领最先进的科技成果的出现。而对于时空大数据的开发者来说,如果我们就地里说地理,那我们只不过是数据行业中的一个小小分支,那需要我们去改变思维、付诸行动的是:从现在起不再满足将自己的兴趣和工作定位于空间信息产业,而是大数字行业。我们不要讲时空→大数据了,而是要在

1、数据量级足够巨大;

2、数据未知足够款广;

3、数据生态足够开放。

的数据→大时空中奋勇翱翔!