我问阿里:卫星遥感,“量”先行,还是“质”先行?

9月25日,蚂蚁集团在外滩大会上宣布,卫星遥感技术将在农村金融领域商用。这套以卫星遥感技术为基础的农村金融风控系统,被网商银行命名为“大山雀”。蚂蚁集团认为,用于支持农村金融的商业化卫星遥感,是一个万亿市场的生意。

识别作物地块范围并不是件难事儿,倒是怎么确定权属和对产量进行精准预测,还需要更多的交叉数据(图片引自新浪新闻)

蚂蚁集团看好农业金融,并计划大力投入资金、技术和资源,道理很清晰——农业是国计民生最最基础的部分,如果国际形势加剧向坏,全球产粮国持续收紧出口配额,造成有美元也买不到粮食,那么种地长庄稼的事儿还得靠自己——世道越是不稳定,任何一个人口大国越不得不重视农业。无论是面向农民和农户的小贷业务,还是面向集团化生产的农业公司的一揽子金融服务,当考虑用金融的手段翘起农业生产的杠杆,科技护驾风控是显而易见的发展趋势。相比其他的风控方法,让信贷专员和风控专家走近田间地头,不仅是山高水远的路程困难,更为尴尬的是,现在的“城里人”有几个懂得庄稼到底是个啥样子?长的如何?土壤墒情意味着什么?更不要说还要涉及到虫灾,旱灾,水灾,冰雹灾,这些不可预知的老天爷的“恩赐或惩罚”一直都在苦恼着这个行当的风控。

现代农业的第一大国——美国,其农业部早就开展了一项重要的工作,就是用卫星遥感对全美的土地进行监测。结合气象、土壤等各种数据,每个月都会发布对农产品产量的预估报告。其实,我们国家的农业科研和管理部门,也有这样的官方服务。现在也能做到全球级别的预测预警。只是这些国家尺度的数据及结果分析并不会聚焦的一个乡镇,一个村落,更不要说一个地快了。

但卫星影像的空间分辨率已经都是亚米级别了!这意味着,几乎每一块地在卫星的眼睛中,都能切切实实的被看清楚,并且每一块地的数据也都被卫星传回了地球,躺在某块磁盘中,孤独的等待着某双慧眼。网商银行农村金融算法专家王剑在提到卫星遥感技术在信贷中运用的难点时说:“计算量非常大。”在可预见的未来,还没有哪个单独的组织,会分析全球每个地块,即便就在当前规模还不算大的数据采集能力下。很快就有成千上万颗卫星像小时候过年被燃放的钻天猴烟火一样,在商业航天大爆发后成本迅速降低的鼓舞中,气急败坏的奔往天空,急不可耐的将卫星数据发回地球。

数据就躺在那里,可惜了!美国农业部是怎么考虑的?既然自己分析不过来,那就直接把购买来价值不菲的高分辨率卫星遥感数据,免费分发了了事儿。谁愿意分析哪个地块,哪片区域,自己动手去做就好了。我不知道美国农业部是怎么和卫星公司协商这其中的利益冲突的,我是看到了在许多免费开源的平台都可以找到这些数据的再应用资源。最直截了当的是将数据放到云盘(box)中,下载去吧!最近这个云盘中正在更新2020年的数据,已经包含了加州等几个州。

从03年开始的覆盖全美国的高分影像,共享在box上,全球任何人都可以免费下载
每个州一个文件夹,最高分辨率0.6米

在“数据大方度”上,有些国家过去做的确实是好,不知道以后会不会变得小气了。不只是政府单位,一些民间组织更是在共享的这条路上孜孜以求。由创业公司Radiant Earth主导,包括微软、Plannet等14家组织参与编写STAC规范的联盟,在上月的年会上除了发布1.0.0版本的规范,也g开展了一项长期的活动——设立奖金为遥感影像做标注。

STAC是“时空数据资产目录”四个单词的缩写,意在为已经转化为更适合云服务的COG文件格式提供目录服务和元数据的描述,使得计算机可以根据描述(GeoJSON格式)信息,快速定位到藏身于云端的数据块,加快数据发掘和应用的效率。说白了,就是在未来浩瀚如烟的数据大海中,能让你的计算机小爬虫在云中或者数据湖中找到特定数据的小沙粒,因为已经是COG格式,甚至不需要下载就可以叠加到地图应用之中。如果没有STAC,上文提到的美国农业部共享的box云,虽然也是以目录的形式提供出来,仍然需要“一个人”逐级点到目录中,而目录中的文件只能靠文件名来粗略的猜测这是哪里和什么时候的数据。

STAC规范1.0.0-beta.2版本发布

类似于阿里用卫星遥感技术开始开展农业金融风控,这两年遥感用于解决各种现实问题其想象的空间明显大起来了。我认为数据增多了并不是主要原因,更重要的是因为有了机器学习,用人力解读影像所担心的效率问题,大家可以大胆畅想一下了。阿里说准确率达到了93%(其实这个说法并不精确:本不是玉米的作物有7%被机器误当做了玉米?还是有7%的玉米机器却将其看成了别的植被?),在这个“准确率”下,用户是否就信任机器智能?要想将其提升到99%,是增加数据?还是提升算法的聪明程度?我想这对于阿里的科学家,也都是现实的难题。另外,中国各地区的土地分块非常不规律,需要多高分辨率的数据才能有效覆盖各地区的各个种植季?还有中国很多农业产区常年都是多云多雨,拍下来的影像每天都是大大的棉花糖。即便国产卫星不停的发射,我还没有感受到对地观察的工作者,已经普遍对数据的可用性感到满意的。

如果种庄稼的土地是这个样子,机器会不会觉得抓狂?(图片来自USGS)

即便在全球各个国家的努力以及“各种大方”的供给下,已经有很多可用的免费卫星影像资源。但如果希望能做到以天计算的卫星数据采集周期,并且能获取1米级分辨率的影像,从而实现更加精准的产量预测,这个需求目前尚无法满足,这也是大家对Plannet这家大量释放“鸽子卫星”的公司充满期待的一个重要原因——既要做到1米一下高空间分辨率,也要做到1天以内高时间分辨率。美国、欧洲、南美的很多农田比较成规模,这也可以暂缓对高空间分辨率的急切要求,即使如此,我们在做南美作物分类的时候,发现相同作物也并非像阿里在会上展示幻灯片中显示的那样规规矩矩的分布。

极海帮助某大型粮油食品进出口公司研究阿根廷玉米的长势

我始终认为,机器智能的基础技能会很快像数据库、Web开发一样,成为程序员的必备,至少是会成为所有软件公司的标准配置能力。在极海,我们确实是将其基本原理作为通用本领,培养每个工程师同事的。另一方面,我认为算法更加不会是技术的门槛和护城河,相比大公司,我们在一些项目上的具体实践,可能会做的更加精细,也更有探索的灵活性。我们可以尝试各种国际上跨界的新算法和论文成果,而不必拘泥于软件的固定形式。即便如此,我也没有觉得极海当下的“准确率”已经彻底可以替代人类专家或者是一个解译的工作人员了。

极海实践的用机器智能对城市六种地物进行识别和分类
极海实践的用机器智能识别无人机影像,对烟苗进行计数和统计

而我更加坚定的认为,当下对技术最有价值的提升是尽可能的将数据释放出来,学那些曾经“很大方”的国家的样子。能拿到数据的政府单位因为没有折腾数据的动力,对动辄TB级别的遥感影像觉得是个负担,而对想用到数据做探索、试验,专注在某个小领域的创新组织和个人,却又费尽周折的寻找数据。甚至大至阿里,我也不认为他们已经感觉数据很充足了,自己获取数据很方便了。真是好尴尬的矛盾!

如果从整个国家的体制上,无法实现这样的全面共享,那我们也可以借鉴美国农业部的经验,从一个部门、一个行业、一个领域出发,甚至那些想先行大数据创新的城市,通过政府的整体投入将数据资源协调好,建立一个遥感影像甚至整个地理信息的数据湖,免费共享。让热爱这座城市,想用数据为这个城市贡献智慧的所有数据工作者都能释放Ta们的热情。

我们生活在对地观测的黄金时代。我们不仅将见证太空探险的突破,还将拥有分析和研究地球及其环境的惊人资源。对地观测可以借助大数据和机器智能的新技术研究气候、土地、农业、交通、基础设施以及自然灾害,其成果会让天、地、人的协调站在前所未有的高度上。在这样的高度上,阿里等巨头关于算法和数量的优先级考虑都并非关键,重要的是我们有办法能让每个人都为这个地球贡献哪怕微不足道的力量。