GeoHey数据工作的微小反思

数据 Jan 24, 2017

我们团队内部经常举办各种交流沟通活动,互通有无,交流最新的业务、技术、想法。最近一次我们全员一起回顾总结了过去一年的工作,大家畅所欲言,从入职感受到工作成就再到未来发展,人人都做了认真的思考和准备。虽然每人只有短短的10几分钟,但浓缩了过去一年的精华,更重要的是我们又一次加深了彼此间的了解,增加了默契。(如果你也想体验彼此亲密无间的沟通、工作,就赶快加入我们吧!招聘链接:https://hr.lagou.com/company/gongsi/29530.html

在此分享一些数据工作的反思。

具体数字更有感染力?

2016年,我们通过位置信息清洗融合了海量的互联网信息,每当对内对外介绍的时候,都力求精准明晰的描述GeoHey的数据实力。来看一组数字:



页面 —— 5.38亿  

整合 —— 1.22亿  

总量 —— 12.23亿



三组数据是我们2016年数据成果的缩影,但对于绝大多数人来说很难理解这样的表述,甚至对我而言也很难有深切的感受。这组数字不禁让我想起了另外一组数据。



太阳 —— 1.5亿

木星 —— 6.3亿

冥王星 —— 57亿   

比邻星 —— 40万亿



看上去都是很专业的描述,但都很难有深切的感受。即便有,也可能是错误的认识,只是不愿承认看不懂专业描述而显得low罢了。太阳系若真按照比例绘制,根本没有标示的可能,所有的印象离真实差距甚远,超乎想象。

让我们再来看一组数字。



地球豆子大

健身球太阳 —— 100米跑道               

手巴掌大木星 —— 400米跑道                   

芝麻冥王星 —— 3公里长跑               

手机比邻星 —— 2万公里麦哲伦海峡


这样描述让我们对真实的比例有了更加形象深刻的认识。这样看来,对冥王星的观测简直就像不可完成的事情。放到地图上看更是形象,真是“一图甚千言”!

海量数据=数据全面?

我们花了不少精力去做各式各样的地图可视化(极客分享)以此展示我们是一家数据公司,也逐渐得到了认可,但是数据多就一定数据全面么?我们经常想让内部的同事和外部的用户觉得我们的数据涵盖的种类丰富数量齐全,但总被发现数据中学校少了一所,房价错了几个,餐馆多了一片。生产流程升级调整了一版又一版,自动化脚本充斥在各个环节,无尽地填坑只为给大家做出一份完美无瑕的数据,但慢慢地我们接受了完美无法企及的现实。



“天鹅是白色的.”

—— 黑天鹅效应



欧洲人发现澳大利亚以前,见识过了欧洲各地的天鹅,它们共同的特征都是白色,因此欧洲人认为“天鹅是白色的”,但发现澳洲后,黑天鹅也就飞过来啪啪打脸了。数据工作也是如此,哪怕找尽天下数据,也不可能说数据是完整全面的,何况还找不尽天下的数据。

对一个事情的评判,我们习惯于用自己的经验去检验那些意外的可能性,无论对百度还是高德,无论地图还是搜索,总有我们想找但找不到的东西。因此,经验最大的好处就在于可以证伪,只需一特例即可,而证实是极其困难甚至不可能,在特例发生之前我们无法依据仅有的无特例数据证明特例的存在。这真是多么令人心塞的一件事情啊!



“POI数据是不完整不准确的.”

—— 经验的真正意义在于可以证伪善



要说服自己和别人我们的数据工作做的很完美,除非我们的工作是无法证伪的。什么样的事情是无法证伪的呢?



无法证伪=神秘力量

· 数学 —— E=mc²,F=ma                       

· 逻辑 —— 一个人回到过去杀死自己祖父

· 算命 —— 今日不宜出行                         



数学和逻辑是没法证伪的,都是基于其体系起始的公理,如果选择不同的公理系统,就会得出截然不同的结论,比如牛顿那套公理在爱因斯坦眼里就是不成立的。我们的工作显然没法依靠这两种办法说服自己和别人,二者无需检验,但我们的工作需要去验证,换言之,科学的工作是需要被检验且可证伪的。这么看来,想要得到神秘力量相助,除非天天把“GeoHey助您成功”挂在嘴边才行。

送礼就送海量神秘数据?

退一万步讲,就算我们的工作已经无可挑剔,完美至极,这么好的东西今年过年不包几个硬盘装满数据送礼才是。仔细一想,人家要真收礼了,恐怕也是冲硬盘去的。工作既要科学可证伪,又要被认可,这又是个无奈的心塞。无止境试错迭代的意义到底是什么,难道真的就是又大又全的数据?让我们看看那些经历了亿万年试错和迭代成果的意义。



精巧设计的身体,却饱受疾病之苦

· 食管和气管是一种低劣的设计,随时可能发生交通事故

· 近视眼基因让你看清老虎时,已经没逃跑机会              

· 高血压带来的诸多危害不言而喻                                    

· 快乐总是那么短暂,转瞬即逝                                       



如果说完美无法企及,亿万年的进化也应该让我们罕有疾病才是,为什么还留下了这么多缺陷?其实生命一直在调整,从未停息过,只是每次并非为了改变而改变,而是有一定实际意义而为之。太胖的兔子跑不快被吃掉,太瘦的兔子又跑不动也被吃掉,剩下了不胖不瘦的兔子。同样,追求完美的道路上,一定为了解决某些意义重大的事情发生改变而做出了另外一些妥协。



饱受疾苦之躯,繁衍生生不息

· 食管和气管用最少的材料解决进食和呼吸功能,减少更多错误

· 近视眼基因让你不会有老花眼,能够发现昏暗灌木丛中的食物

· 高血压使更多血流向胎盘,增加养分提高胎儿存活率             

· 快乐总是那么短暂,转瞬即逝,生于忧患,死于安乐             



数据工作反反复复的填坑并非为了跑分刷指标。因为上线了时序可视化功能,所以历史房价数据要补全;因为我们需要做实际的选址指导,所以要弥补数据的缺失;因为机器学习需要做更精准的预测,所以数据分类需要推倒重来。所有的迭代和改进都是为了更好的展现数据和平台的价值,总会有根弦时刻提醒着我们不要自嗨。

2016回顾

去年我们数据工作也没有什么别的,大概三件事:

  • 数据从少量到海量,相比2015年数据了增长了853.15%,数据覆盖扩展了55%
  • 数据生产流程、质量监控体系迭代了1700多次
  • 启动基于位置的AI应用研发,进一步发掘数据的价值

主要就是三件事情,做了一点微小的工作。

Map Gallery https://geohey.com/gallery/gmchocolate

欢迎从GeoHey获取地理和位置相关的数据、知识、服务

访问网站 http://geohey.com

联系我们 contact@geohey.com

QQ群 164183186

长按扫码关注公众号

高楠

爱好地图、数据、自动化控制,主要使用Python、PostGIS作为生产工具。

评论正在加载...
Great! You've successfully subscribed.
Great! Next, complete checkout for full access.
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
分享