从这里挖宝,是你不得不做的选择

1850年,李维·斯特劳斯被淘金潮裹挟着,但没有直接去旧金山采金矿,他将原本用来制作帐幕的粗糙帆布替当时的采矿工人制作了第一条Levi's牛仔裤。我们创业和李维一样,选了如何帮助用户挖宝这条路。只是信息时代的挖宝路径与当年不同了,用不着争先恐后的去一个地方抢。现在满世界都散布了各种宝贝,你需要练就的是识别宝贝的慧眼。我们在帮用户挖宝的过程中,自己也“偶遇"了一些有趣的矿物,这些矿物在行家和普通人眼里自然价值不同,但我们自我修炼的关注点还是怎么为用户提供更好的牛仔裤。

长期关注极海文章读者都知道,我说的宝是数据,我说的牛仔裤是数据挖掘的技能。我们从2020年开始采集全球的航班数据,从公开渠道整理每个航空器的轨迹点,其时间、位置、型号,是航空器轨迹点的最基本“原子”数据。将其汇集,多维统计,形成对全球国家间、城市间航空连接强度的洞察。积累了一年半,这个数据就有一定的规模了,不仅是数据量相当客观,更重要的是可以用于钻取的维度也丰富起来,我们就可以欣喜的从中识别出一些有趣的矿物了。举一个小例子:

从航空器的型号中可以过滤其特征行为,将其轨迹可视化,你可以形象的理解第一岛链的概念。负责弹道侦察的眼镜蛇球(波音RC-135s)在黄海海外活动较多。

中国周边出现的6种美军常见军用机型:指挥预警机、弹道侦察机、雷达侦察机、电磁侦察机、电子侦察机、反潜机

这些在中国活动过的航空器,也“巡视全球”,其分布很有地域特征。上面提到的弹道侦察任务在别的地区很少,反潜机在澳大利亚东南海岸密集执行任务。

在中国周边出现的军机全球监测活动轨迹共计4081条,其中中国周边共计668次

可视化表达成果可能是数据分析完整链条中最简单的一步,而前期的处理,即便就是这一小类的专题数据,也是一项复杂的工作。但这个世界本身比大数据甚至更加复杂,单纯从个人过往经验中决策,越来越让决策者感到不适;一面是巨量膨胀的数据,另一面是对决策的时效和质量要求不断攀升。诉诸数据进行决策,是不得不做的选择。从数据中挖宝能成为大趋势,这是对未来的一个预测;有本领从数据中挖宝的企业才能有生机,这是对未来的断言。断言可能有偏差,但对趋势要有笃定的判断,这是作为创业者不得不修炼的本领。

我在修炼这个本领。如果就在当下这个时点,我说房地产是个很有前景的好行业,10个读者中能有10个会嗤之以鼻,不论读者是不是房地产的从业者;如果在十年前微软发布windows8的时候,我说微软将凭借云计算,其市值会在接下来的10年涨10倍(对应微软的股价,其市值截止12月1日是2.48万亿美元),10个读者中能有10个会将信将疑,也不管读者对信息技术的发展是热情还是冷漠;但如果我说从现在开始,无论是国内的产业机会,还是国外的业务需求,对数据的价值挖掘一定是各家企业的核心竞争力,10个读者能有10个都会支持我这个看法——对未来产生了一些感觉,每个人都可以有自己的心得体会;对未来进行很量化的预测,绝大多数都是很不靠谱;但能看的懂未来的大趋势,这是创业者、企业家的基本素质要求。

虽然我敢笃定,从数据中挖宝一定是个好方向,但我深知,这里面有个前提,就是数据得有厚度,可交叉的维度一定得多——从已经公布的统计报告中,比较各个城市的GDP,有没有价值?有!从中解读出GDP增速高的城市经济活力大,这是0阶道理,从谁都明白的基本道理中挖不出来宝,这里面能提取的价值太浅。如果能有更多维的城市数据,比如新入学小学生人数、产业园新入住企业本地招聘员工数,再进行组合,这里面的宝就会影影绰绰,露出端倪。

几乎所有的国内GIS从业者,都有过或多或少的沮丧,做了这么多年的GIS,还是停留在地图可视化的水平。我分析其中的一个重要原因,是常见的GIS系统涵盖的数据太“薄”了,能组合的,能探索的角度太少了,只好讲讲现存世界的现象,即便就是发现内在的规律都难,更别说做预测、给决策者提供场景化的下一步行动建议。一遍遍去呈现一成不变的地图,就是再精彩的故事,也没有人翻来覆去的看。

太平洋战争的第一幕——日军偷袭珍珠港地图详解。这么精彩的可视化故事,只是单一维度的数据呈现。来自DK 出版的《Battles Map by Map》

说到这里,借着这篇文章的主题,回应一下上次微信公号中以为朋友的提问:如果政府真有一天将地理空间数据大规模的开放出来,尤其是国家主导的遥感卫星数据,现在要做哪些准备?也就是说会有哪些机会可以憧憬?我的简短回答就是上面的文字的概括——将空间数据与其它数据连接在一起的机会。比如本文开篇介绍的航空器轨迹挖掘的例子,如果把飞机型号与遥感影像对应,就可以快速对卫星影像中的飞机队形进行标注,这两类信息的正交大大提升对信息的预测质量。负责标注的机器学习工程师对此类信息并不具有先验知识,Ta们本人也需要机器能给Ta们提供信息。

从轨迹数据中,获得型号信息,从而标注那霸空军基地的C-4行政运输机。日美行政“大人物”乘坐此机型出没于太平洋地区“公干”

去寻找空间数据与其它数据连接在一起的机会,哪怕还没有看到这种连接在哪些场景中直接的应用点。秉承这个核心思路,可以拆分在这个过程中的每一步,都可以找到具体的发力点。只不过在当下的时点,数据业务离固化成需求还有相当远的距离,还是需要创造性的发掘场景,这个责任的主动性不在用户,而在与创新者本人。数据工作者的苦恼是,特别缺少明确的需求(在数据可视化之前,谁都不知道数据能做什么分析),萃取数据的第一步得自己去迈。

数据技术和数据生意通用的需求和价值点

所以我为什么常常呼吁政府的开放数据平台,因为这种平台从国外的经验上看,可以大大的拓展大家对数据的感觉,也就能进一步启发需求,从而带动产业的发展。从开放数据中做成大生意的案例,除了被IBM高调收购的气象产品公司the Weather Company,大名鼎鼎的还有Zillow。本文不对它们的业务做介绍。我用它们做例子,是因为它们用到的最核心的数据都是政府发布的与地理位置强相关的信息。极海所做品牌监测产品以及在此基础上的分析成果正是类似的一种实践。

Zillow的网页版和App@greenice.net
Zillow的分析地图

最后再说回上篇文章读者朋友感受到的我多次倡议我国政府大力开放公共数据,不过我也心知肚明,这件事儿不容易实现。即便是政府(代表了高瞻远瞩的非短期利益驱动的群体),也需要激励模型。我们倒是可以探讨那些大力共享数据的政府机构,他们本身的收益是什么?以NOAA为例,我觉得这个激励在于全球领先的自豪。从公开信息上看到(原文为英文,笔者翻译):

“通过美国国家海洋和大气管理局(NOAA)开放天气数据,通过更准确的预报,大大降低了天气造成的损害;发展了价值数十亿美元的天气衍生品金融行业;以及从NOAA的实时数据开发出的百万美元工具,带动了应用行业的增长。在许多方面,围绕NOAA天气数据建立的行业被视为公开数据发布如何产生重大经济影响的典范。为了进一步扩大其数据的影响,NOAA启动了大数据项目(BDP),该项目提供了一个机会,将NOAA海量的高质量环境数据和先进的数据产品、私营行业巨大的基础设施和技术能力,以及美国经济的创新和能源结合起来。”
NOAA的一站式数据服务

最后的最后,做个总结:

1、在数据的交叉和多维整合中有巨大的宝藏:

单一数据能分析的维度很窄,多维数据的交叉产生的价值具有乘数效应。数据分析的业务场景化,得靠数据分析者、创新者自己主动探索,地图可视化是地理位置数据与其它数据高效交叉探索的前置工具;

2、诉诸数据,将数据用起来是企业不得不做的事情:

数字化转型的愿景是用数据说话、决策,机器替工人、专家、客服、管理者、决策者做人类不擅长的工作。数据产生的智能,就是数据的宝。挖的出宝是妙手偶得,做“挖”这个动作,是所有企业能存活下去的必要条件;

3、数据技术的涌现得靠数据资源的密度:

中国的制造业为什么独步全球,因为改革开放的这四十年,全球的代工几乎都涌到了大陆。制造业的资源密度实在是太高了。互联网大厂的数据技术牛,是因为互联网用户贡献了极其丰富的数据。要想发展公共数据技术,让更广泛的数据工作者具有全球竞争力,得有一定的公共数据密度水平。中国的信息高速公路够宽广,但路上的车还是少了点。