做一张地图,你就懂了数据有多么好玩

当你和一个小学生聊人工智能,Ta会说:“我经常让Siri,小艾,小冰互相逗闷子吵架,Ta们既聪明又傻的可爱”,小艾们是小朋友的家庭成员;当你和一个退了休的大叔大妈聊人工智能,Ta会说:“我听说过这名词儿,用得上人工智能那可是下一代人的事儿喽”,但其实Ta们打给银行客服,电话那头的声音是来自是另外一类Siri,叔叔阿姨们停不下来刷的抖音和头条也是机器喂给Ta们的内容,Ta们人工智能其实是紧密接触的;当你和数据科学家聊人工智能,这群精英会说什么——“无非是一堆数据,找个算法,淘些显卡,训练而已”,Ta们与人工智能是掏心掏肺的深度搭档。

最近我“写了”一段钢琴曲,彻头彻尾的默认模式——就是用了人工智能的程序随机创作了一段。我自己听下来还有模有样的,如果我是个懂一点乐理、再熟练一点的编曲软件小工的话,可能会更加有模有样。这是我和人工智能“音乐家”的第一次接触,这个音乐家可没有什么天才灵感创意,Ta有的是将音乐与数据双向贯通的本领,可以说Ta在“听”过的音乐数量方面极有造诣,无数个1万小时,也就无“人”能及。

用VIVA创作的舒缓钢琴曲配NASA-Imagery的全球灯光影像

作为一个数据工作者,在还没来得及替将来立志做一个音乐人的小朋友操心时,我已经为所有在内容创作领域表现平平的人(包括为公司公号投稿的自己)担心了——写诗作曲绘画,机器干到及格水平,那都不在话下。还好,我们极海是一家不断进步训练机器的公司,我将会配备很帅的机器助手和我一起竞技。我们的工作是在为这个世界的实实在在的物理存在建模。比如下图一幅遥感影像,就是地球上一块皮肤。用我们人类的肉眼,别说为这块皮肤诊断“疾病”,就是它是在哪里你也没法辨别。我敢说没有人能不借助工具,马上看出来这在哪儿,但是你如果会科学上网的话,你会找到答案的。

没有什么线索的一块地球皮肤

好吧,不用搜索引擎,我给你下图作为参考,你会有什么启发?是不是还云里雾里的?现在停下来,对这英文猜猜看呢?我们的大脑对不熟悉的字符就是运算很慢。

但是如果我给你的是下图呢?你会有恍然大悟的感觉,你甚至会秒想到毛岸英同志为什么要去抢救那几张地图?时间“仅仅”是过了70年。(插一句题外话,上图中的⭕️所在地,是吴京在电影中痛击北极熊团大获胜利的新兴里,而在蓝色的古土里,我志愿军与敌军真正的王牌展开的是比片中更惨烈的争夺)。抛开机器学习和神经网络这些专业知识,你可以近似的将你的大脑从下图获取的认知当做识别上面遥感影像的标注。至于说机器怎么就能将“群山中的两条公路通往海边”的特征从全球这么大块皮肤中找出来,是朝鲜的长津湖地区,这就是我们机器学习算法的事情了。

美国陆战1师的先进攻、后逃亡图,你对这张地图的认知是因为看了“长津湖”。十一假期看电影的经历就是你大脑生成的数据。原图来自《Korea——The Untold Story of the War》
伍千里的连队曾经战斗过的地方,现在是这个样子(穿越回当年,彭司令要是有这样的工具会激动吗?)

如下图这样的,带有明显城市纹理特征的地图,对于机器来说,是更明确的标注。纹理也可以将抽象反馈给具象,从机器知识反向输出成人类知识,人类专家再将其总计成为行业的“道”,比如沿江布局,跨江大桥的数量,卫星城的分布,易居生态的设计,商业聚类的密度,从而为城市规划师提供范例图谱,为城市管理者提供全球级别的参考。这个过程,机器的价值体现在快而准确的模式识别。

你能看出这是哪座城市吗?如果能行,再思考一下,你是怎么识别出来的?如果不行,试着搜索引擎一下。感谢云金的公号GISer学习团提供的资源

曾经的超级网红书《人类简史》的作者尤瓦尔·赫拉利在《未来简史》中“悲观”的预测,将来能指导机器做类似人类智慧行为的少数人是神人,而大部分人都是“无用”之人(生下来就是为了吃喝玩乐等死)。我们不在价值观上评判,哪类人将会过的更幸福,我们就说现在会有一部分年轻人(70岁以下都算年轻)会想追求在很近很近的未来,做个超越无用的有用之人,我认为最简单最快速的路径就是武装你的数据思维。 虽然高水平的共情,沟通,管理,领导这些软实力其实也都是尤瓦尔所说的神人类型要具备的素质,但这些能力也是需要讲究机缘和特别长期的训练才能提升的本事,而数据上的本领,稍稍武装一点,就进步飞快,放在所有行业全部都通用。更为关键的是能找到的自我提升的学习资源又超级众多,学一点你就觉得好有收获。

Udemy上的课程很便宜。用“数据分析”关键字搜索,有10000个结果。想找学习资源真不难。另外,让孩子学好英文仍然是一项好投资

我知道有好奇心的你不是因为课程的价格高低,而是担心数据思维的课程有高高的门槛,让你望而却步。今天我们就做个非常感性的起步。用几个小小的操作,就制作一幅启发你数据兴趣的成果。

第一步,在公众号中回复“人口”,拿到一份数据,这份数据是全球按照2018年统计的结果、30万人口以上城市的列表(文件名:全球30万以上人口城市.xlsx)。原始的文件是我从联合国的网站上下载的,包含1860个全球城市,人口数量从1950年开始5年一个跨度到2035年(预测值),城市名字我已经将其翻译成了中文。

第二步、在Geohey.com中注册一个账号(以下的操作全程免费)。在出现的界面中,依次点击“数据资源”、“我的数据”、“上传数据”,在弹出来的对话框中,将刚才下载的excel文件拖拽进去,稍稍等候。在出现的下一步中,如下图在“选择经纬度字段”前面打钩。系统已经自动识别率第25个字段是经度,第24个字段是纬度。经纬度就是坐标,用于告诉系统全球城市在地图中的位置。在点击下一步后,出现选择坐标系的页面,点选WGS84坐标系。下一步等候数据入库。

坐标系是地图的基础概念

第三步、如下图,依次点击“我的项目”,“数据上图”,“新建项目”(下图中的地图是我个人曾经制作的,和你的界面不同)。在出现的界面上,点击添加数据,然后选择你刚刚入库的全球城市数据。

第四步、开始配置地图的效果。选择气泡图。需要其它配置的地方,在下图中红框所示。其中field_20是第20个字段,表示的是全球城市2020年的人口。你可以挨个都试试,选择一个你喜欢的颜色和代表城市的圆圈大小。作为背景的世界地图,你可以在“地图”栏目中选择,可以来一个遥感影像的背景,试试能不能找到长津湖。

第五步、保存和发布。在“设置”栏目中,给自己的地图起个名字,在分享方式中选择“公开”,保存。就能看到分享链接和二维码了,你可以将其拷贝下来,发到朋友圈。朋友们点击就可以欣赏你的第一幅地图作品。

你还可以试试将地图做成三维的效果。按照下面的操作,注意红框里面的选项,一样非常简单。具体操作就不再赘述。

能制作这样的地图,有很多工具可以选择,甚至在Excel中就可以完成。在越来越开放、软件越来越简单的互联网世界,人类个体能获得资源不是不够,而是太多,你要考虑,这些资源怎样才能被你识别。类似的,你的成果能怎样被别人找到也是一个重要的需求。上面这一系列、不超过10分钟的操作并不会让你一下子就进阶成了数据的大咖,也不会使你成为驾驭机器学习的高手,你也心知肚明这种进化不是一蹴而就的,但这个操作会让你对数据产生兴趣。别和自己的大脑对着干,让数据好玩一点,是开启你的数据思维最佳的起步。而最佳的起步要有三个特点:

1、简单;

2、可分享;

3、与众不同。

如果你能自己也完整的操作下来,我相信你能感受到这三个特点。

“你会立即产生一种全球意识…对世界现状的强烈不满,以及对此做点什么的冲动。从月球上看,国际政治看起来就是个小屁事。你想抓住一个政客的脖子,把他拖到25万英里外,然后说,‘看看这个,你这个混蛋(Son of b**ch)。’”----------阿波罗14号宇航员埃德加·米切尔(Edgar Mitchell)

看地图让你心怀广大,做地图让你认识数据。好玩着心怀广大,从一张地图开始。来吧,试试看。