云技术如此繁芜,你的焦虑该如何在云中安放

若不是时隔五年再融资,大家还以为Carto的第二曲线已经沉降了。本月十四日,这家老牌“新型”GIS和位置智能创业公司宣布完成了C轮6100万美元的融资。这个时间点距离Carto的B轮融资已经过去了五年零三个月,同时,Carto也正好长成了一家刚刚度过10岁生日的青春期公司,6100万$算得上是步入成人之路的成年礼。这条艰辛创业路沿途的美景不是已经被美式通胀打了折的绿油油的美钞,而是远方已经清晰的层峦叠嶂的云技术。

用什么图片来表达位置智能更贴切呢?如果你是一个GIS的从业者,你该怎么向友人介绍自己的工作?人脑和位置有关的认知最直接的形象还是地图吧。图片@Carto blog

Carto算的上是少见的从西班牙起步做到具有全球影响力的科技公司。这二十年间,世界上几乎所有的科技新贵和创业精彩故事不是来自美国就是中国,别说是西班牙,就是整个欧洲,似乎更值得骄傲的就只剩下一堆隐形冠军(那些很少被传播,但在非常非常细分的一个市场做到了全球最佳,算是“专精特”,不见得“新”)企业了。我认为,Carto最让人佩服的、我尤其是期待下一代中国创业者能将其作为榜样的一点:产品一发布就面向全球的战略,而并非仅仅针对欧洲或者是西语用户。融资以后,Carto创始团队很快就把公司搬到了纽约。也许是创始人每天都和地图打交道因此心系全世界,也许是一点也不觉得西班牙语和西班牙人在美国会有语言和文化障碍吧,去美国创业,去最有需求的市场和最具创新力的人才中间创业,绝对是英明无比的决定。

Carto早年间的成名靠的是媒体地图,更确切的说法是靠数据新闻的兴起。纽约时报、华盛顿邮报等享誉全球的媒体在互联网转型的过程中,都饶有兴趣的用数据讲说新闻和观点,这种数据化的故事正好与交互式地图相得益彰——读者喜欢用地图承载的故事,好故事又促使创意地图的进步。在2011-2015年间,涌现了大量精彩的以地图为核心的可交互式新闻,读者徜徉其间,在深度故事新闻上停留的时间颇长。这些媒体纷纷成立自己的新型工作组,组里的创意人才选择了上手快、样式新、模板和开放数据都很丰富的SaaS类地图可视化工具,这其中,Carto、Mapbox是佼佼者。媒体带来的传播效应,带来了Carto用户群的爆发式增长,即便就是传统的GIS专业工作者也欣欣然着手制作了讨巧可爱的地图可视化成果——谁又能反感简单快捷呢——即便Ta们心中仍然觉得在功能上这种SaaS与专业工具差距不是一丁半点(笔者本人也算其中一员)。

非专业工作者用Carto能很快制作出新闻地图,上图为飓风马修的可能路径及影响范围,图片@geoawesomeness
一张地图往往都像磁石一样吸引新闻地图读者的眼睛,你会细致的研究一下这些大圈小圈、粗线细线是什么意思,图片@纽约时报

自从Carto上一轮融资后,就明显开始转战于专业用户市场了,准备“硬刚”传统GIS厂商。官网上不再宣传轻量级制图特性,而在强调分析能力。这条转型的第二曲线,很多业界人士都不甚看好。“专业”和“业余”的平衡本来就是非常难以拿捏的,取悦哪一端的用户都会让产品功能的天平失衡,大概率是专业和非专业用户最终都不满意。Photoshop高手可能只会对Lightroom有些许好感,但如果Ta们仅仅是用Instagram自带的“滤镜一下”就发布,那Ta们就已经把自己切换成了偷懒小白的心理角色。但为啥好端端的在大众媒体上挣眼球的事儿不去做了,却要去服务B端的专业用户呢?答案你也猜到了——大众化的地图不挣钱。彼时互联网靠流量卖广告的商业模式玩不了,即便就如Carto所宣传的,其产品在全球有60万用户,每月几十亿次的地图调用,用这个规模做广告的生意,流量仍然是太少了。

专业化的路线也不容易,Carto选择的方向是空间分析。我一度很狐疑,Carto改版后的第一套工具箱提供的空间分析工具对于他们的用户来说,单单就看工具的命名,能读的懂是什么意思吗?怎么会有人靠猜名字而不懂工具的内涵就去购买这样的服务呢?而传统用惯了桌面工具的GIS专业工作者有几个人会选择在线去处理和分析巨大量的空间位置数据呢?这轮融资新闻稿,已将我当年留存的疑惑之云吹散——创始人和投资人都反复强调了Native Cloud(原生云或者云原生)的意义。英文“Native”是本地的,土生土长的,看得见摸得着的意思,而Cloud则代表了远端的,开放外部世界的,看不见摸不着的,将两个本来是矛盾的词混合在一起的含义是:Carto本身就是彻头彻尾、土生土长的云技术,可以与云服务商的产品无缝整合,如此这般补足了云服务曾经不具备的空间分析能力,这种能力超越了两者混搭而“夹生了”的技术水平。

所以可以断言,是云赋予了Carto第二曲线生命力,这条生命线会因为云的趋势而勃发出强大的动能。即便Carto有在技术上的独到先进性,但只靠技术并不一定意味着业务的先进性。一个十年的“老公司”五年没有融资,还能再获得投资人的认可,一定得实现业务的先进方可。我们姑且从这次融资大概判断,Carto这五年或者最近一两年是真正收获了业务的小成功。我认为这个成功最关键之处是来自全球用户将数字化发展到云端的大趋势,也就是用户的数据已经大量的从自己机房的传统数据库(Oracle、SQLServer、MySQL。。。)中迁移至云数仓。这个基本点立足之后,才有位置智能的普适化带来的业务机会。

Carto的原名是CartoDB。Carto是绘制地图的意思,DB呢?这是更加被广泛认知的IT词汇缩写:数据库。如今Carto的发展与数据仓库整合的技术显然是带有天生的“爱好”。如果Carto的技术积累恰巧与大数据的发展趋势相融合,只能赞叹他们生下来就带有良好的基因。从DB到Data Warehouse(数据仓库)好像就是顺理成章的事情。Carto目前支持的数据仓库包括BigQuery、Databricks、PostgreSQL、Redshift、Snowflake。

Carto的工作空间与数仓连接的界面@Carto blog

相比Snowflake,谷歌的BigQuery, 亚马逊AWS的RedShift,微软Azure的Databricks都是基于完全不同的云架构基础和不同的目的而创建的。RedShift是对PostgreSQL数据库的一个定制化修改,它初始的架构仍然是数据库,从本质上并没有将计算和存储分开。虽然RedShift号称是第一个云分析数据库,所以具有先发优势,但它的基础是建立在现有的内部RDBMS技术之上的;谷歌BigQuery是基于Dremel技术,BigQuery最初的设计是一个黑盒查询引擎,而不是RDBMS,所以对于用户来说不能像用SQL一样灵活的操作BigQuery;Databricks是Apache Spark(开源分布式计算框架)的企业版,所以它包含了Spark的先天不足。Snowflake算是都弥补了上述的不足,但Snowflake也不是就横扫江湖,一统云数仓的天下了。我写下这段文字,不是说我对这些数仓技术很在行,相反,我只是知道个皮毛。皮毛知识更让我焦虑,对技术的演化都无法深度感知,如何选择方向?好在我有一个定力,就是坚持决策的智能化。而对云数仓的原生支持,更加鼓舞了我的坚持:有基于数据的分析,有深度的挖掘,最终形成智能化的决策成果才是用户的诉求。简单的可视化,是数字化的初级阶段,是昨天的故事。

云原生那么多的优势,以极海自己研发的成果,最给我突出感受的就是“快”!即便就是一个普普通通的可视化,能做到流畅的出图,这是所有空间分析工作者最基本的要求。我用极海新版的上图应用SaaS做了一次试验,100万个多边形从上传到配图、发布,一共不过几分钟,而发布出来的在线地图成果,浏览的效果比桌面软件还要顺滑。这里面用到的只是我们在阿里云上搭建的环境,还没有借助上文提到的数仓技术。

108万个多边形(2Gb)的上传、制作地图、发布,5分钟完成,交互操作流畅体验(有感兴趣想自己操作一下的读者,可后台联系小编)
即便用专业的GIS软件(QGIS),将这108万个多边形每次刷新显示完成仍然需要1分钟的渲染时间(上面的gif图两倍速播放)

而解决大数据分析难题的技术就更加有趣了。我们在为连锁品牌提供分析服务的业务中,常常要回答用户这样的问题:我们的品牌周边都有哪些竞争对手?把这个抽象问题换一个示例问法:全国每一家肯德基门店最近的麦当劳店在哪儿?这是一个8000×5000的矩阵求最短路径。如果你觉得这个计算量尚可,那再来:找出全国每一家星巴克门店最近的肯德基、麦当劳、瑞幸门店(都提供咖啡);再来,离全国每一家肯德基餐厅最近的十家快餐店。这些查询要求都要做到秒级返回成果,你该如何优化?这些场景,就是数仓能发挥优势的地方了,也是我们极海作为专业的空间大数据分析服务提供商会反复优化、深度研发的领域。而将这样高效的查询应用到用户的业务中,也就能为用户的决策提供有竞争力的响应效率。

截止本月22日,全国在营的星巴克、瑞幸、肯德基和麦当劳门店数量分别为5501、5832、8461、4303。离星巴克最近(且在500米半径内)的三个品牌门店距离
放大到上海的效果图。点击全国地图在线访问地址,查看你所在城市的四家“咖啡”相爱相杀

Carto的第二曲线不见得就已经为自己赢下了当下的竞争。既然已经进入了专业市场,曾经的头号玩家绝不会坐视不理。还不等Carto的融资消息,对手已经在11月份宣布新产品全线支持数仓,提供友好的建立数仓连接的操作方式。对于用户来说,有几个人能深入的去了解云原生或者是非原生技术的区别在哪儿?Ta们只是感性的确认“支持”或者是“不支持”即可。双方的技术人员只好在项目的PK中去实操性能的对比、可用性的差异了。我们总说“内卷”,这其实不是内卷,是正常的进化需要面对的竞争,是让用户能收获好处的竞争。至于能不能赢得竞争而产生的焦虑,这无论对初创企业还是老牌霸主,是每天都要直面的正常生活。

Esri在十月份宣布,新产品ArcGIS Pro 2.9 and ArcGIS Enterprise 10.9.1都支持数仓。不过请留意,这种支持存储在数仓中的数据类型,并不会扩展数仓中的空间分析能力,这和Carto的Native Cloud含义大大的不同@Esri Blog

在国内,我们还没有看到如Snowflake、Google BigQuery、Azure Databricks那样成功的、遍地开花的公有云数仓产品,也几乎没有看到一个像Google Cloud那样存储了巨量的开放数据,让全球用户调动BigQuery的计算服务,在云端实现Pb级数据的分析,直接享受分析成果的乐趣。但上云、用云、建设云是谁也挡不住的趋势。云上有诸多技术,而且还会继续层出不穷的诞生新技术,想跟上每一步的发展对一个技术人来说是几无可能的。但在我眼里,云要解决的最核心问题就是:让算力乃至人工智能将数据用起来,替代人类的部分工作,形成人类的决策依据,将服务规模化和个性化。所以高效处理和分析数据是云的最大使命。为什么Snowflake这么快市值就超越了IBM,如果你有和我一样的观念,就不会觉得奇怪了。而回头再看看咱们国家的大战略,从国家信息中心所承担的任务中,无论是一体化大数据中心还是东数西算,都算是这个大技术趋势的强势起步。

最后,将你对技术的“看不懂,跟不上”焦虑就化作这五个发展趋势最后,将你对技术“看不懂,跟不上”的焦虑就化作这发展趋势的五个要义而释放在云上吧:

1、存储和计算的分离:

这是让数据分析真正快起来关键所在,查询读取与写操作要调用不同的资源;

2、充分利用云的自动数据维护和可伸缩的好处:

数据分析师和管理员不必考虑如何实现数据的维护和软硬件资源的增减,只需要琢磨业务弹性的策略即可;

3、所有用户操作都要简单易用,没有门槛:

不用完整的理解数据库和数仓的原理,只需基本SQL即可,大部分操作都能通过界面交互完成;

4、速度,更快的速度,再快10倍:

让所有用户都因为高速而自豪而兴奋,也因为有了速度就敢于畅想业务的智能化;

5、数据发布和分享:

数据的分享有完整的API,数据的共享不必通过物理的拷贝,在同一个云中乃至未来跨厂商的云中做到瞬间复制。