快系列 | 极海云快算技术

身处地理大数据时代,挖掘并深思数据中蕴含的价值,辅助决策,是极海创立之初的使命。

海量地理数据时代的现状及挑战

数据之所以变为大数据,是由于人们意识到地理数据的价值,将历史数据留存下来,并不断采集并存储下来,以便通过后续的分析挖掘,得到可以辅助决策的有用参考信息。例如国土部门,经过二调、三调、土地确权等一系列举措,产生了海量的地理数据成果,必然需要对这些成果进行检索、分析。然而,随着数据量的增加,对于数据的分析计算带来了巨大困难,查询的实时性大打折扣,分析不仅耗时长,有的甚至无法完成。

百舸竞渡,百家争鸣

面对这种情况,很多厂商都探索自己的地理大数据解决方案。以往结构化的数据往往存储在关系型数据库中,关系型数据库优点是组织数据灵活,但未对海量数据做针对性的优化。因此,部分厂商面对海量数据,放弃关系型数据库,采用Hadoop进行存储,使用Spark进行分析,而Spark对于内存要求较高,且缺少对于地理数据分析的操作模型,往往效果不理想。部分厂商利用NoSQL数据库解决海量地理数据的问题,然而相对于关系型数据库,NoSQL数据库功能较为局限,更适合非结构数据,查询性能较高,然而复杂的分析往往要多个表之间进行联结,例如叠置分析、clip分析等,这方面NoSQL不能很好的满足。

极海云快算技术

我们利用分布式存储,并行计算等技术,在关系数据库基础上,改进现有方案,使关系数据库拥有存储和分析海量数据的能力。也就是说,极海的快算技术既能兼顾关系数据库的灵活性,又对空间大数据的存储和计算效率有了质的飞越。

我们针对国土中的场景,着重测试了数据量在千万级、亿级的面数据,国土需求中的两个典型需要大量计算的场景:实时查询、空间分析。这里需要解释一下,不同于普通的大数据,地理数据有天然的复杂性,单个面往往包括几十甚至几万个点,且拥有诸多属性,例如我们测试的千万的面数据,其顶点数量已达到3亿。

对地理数据的复杂性有了理解,就可以意识到下面的测试结果意味着什么。以下测试结果基于的硬件总体配置为36核,128G内存。1000万、1.2亿以及40亿均为面数据,查询时效性实测结果如下:

为了体现真实场景,我们采用全国地块数据和全国规划数据进行叠加分析,提取相交区域。

数据详情:

  • 地块数据,面,1.1亿,310G;
  • 规划数据,面,1.3亿,380G.

耗时实测结果如下:

够快吗?还不够?

相对于传统厂商,极海云快算产品的效率可以碾压一个数量级。啥?您还觉得不够,您的数据量更大?不要担心,极海的快算技术允许您通过增加机器或配置来进一步提升存储和计算性能。

而且,相对于传统厂商,极海作为一站式地理云服务提供商,提供“极海快存”,可对多种空间数据格式进行快速入库,例如以上测试的1.2亿面数据,入库仅需25分钟;数据分析完成,我们还有“极海快显”技术,可对亿级地理数据进行实时可视化,单张瓦片加载时间 < 1.5 s,如果您感兴趣,欢迎关注该系列的后续。

如果您有海量的地理数据,需要对数据进行分析计算,得到有价值的信息,辅助决策,我们诚邀您一道,体验极海快算,攻克难题。

极海云快系列文章列表