数据的世界,不仅需要图表,更需要故事

本周,我们继续在极海Lab上发布品牌监测数据,并配制好相关的图表来解读苏宁小店、百胜、百果园等品牌门店发展的状况。在讨论配合图表尽可能少用文字时,我们运营的小伙伴表达了一个担忧:图表对很多读者来说,有门槛:对比枯燥的数据,一样也有看不懂的难题。我心里其实有些小不服气,不是说一图胜千言吗?我们的文案几乎是采用了最常见图表类型的信息图,怎么会有人抱怨看不懂呢?不过后来想想也释然,世界上任何一个话题,无论多么简单,解释的人费多大的劲,总会有人说Ta听不懂。这个时候对于解释者来说,除了垂头丧气,可能最谦卑而理性的心理状态应该是:我自己的解释“功力”还不够吧。

“Today, for anyone who wants a shot at a well-compensated position . . . comfort with data is increasingly essential.” 今天,对于任何想要获得高薪职位的人来说……对数据的适应越来越重要。
                                                            ————————————Josh Bersin,德勤

根据诺奖得主丹尼尔·卡尼曼的超级经典著作《思考快与慢》,人脑并不自动接收逻辑的认知,甚至可以说绝大部分人本能的都是排斥需要计算、分析、推理这种耗费大脑能量的思考(卡尼曼称其为思考的系统2)。而和数据有关的认知,哪怕就是一张简单的图表,也是这种典型的需要系统2开动的大脑运作模式。请原谅我在上面引用德勤Josh的话,来暗示那些懒着动脑子,排斥对数据“适应性”的职场人士正在走着与薪水提升背离的下坡路。

懂图表,沿着图表作者的思路琢磨,算得上是对数据最基本的适应性了吧。这种适应性体现的是对数据如何加工成信息来解释世界的好奇心。像极海这样的数据及图表、报告的制作者、传播者,需要不断尝试的是想方设法来启发这种好奇心。努力的方法也无它——依靠故事而已。斯坦福的课堂研究表明,听课的学生中,能记得住数据故事的人数和记住统计数据的人数相比,差距10倍以上——即便大家都是一群脑子极好使的学霸。

人类的大脑天生就爱听故事,即便学霸也偏好记忆故事胜过数字本身

任何故事都可以借助英雄之旅的经典套路。坎贝尔的《千面英雄》无论是17幕还是12幕都太复杂了,化简为“启程、启蒙和归来”这三幕,对数据故事就够用。讲述人从发现一个问题开始,用数据破解冲突,逼近问题的本质,到第三幕形成一个结论,最好还有决策建议,这段数据的英雄之旅就算是走完了。

既可以把运用数据的人也可以把数据模型当做英雄之旅中的英雄

我用斯诺的霍乱地图实践一下模板化数据故事。第一幕——初始状态:在伦敦最严重爆发霍乱的1854年,当时人们对微生物还没有概念,更不要说对霍乱弧菌的认知了,有人祈祷,有人逃离,谁也不知道到底发生了什么;第二幕——数据对抗冲突:斯诺医生用一张简陋的手工地图,将每个死去的人在其住处位置标上一个小格子(地图上的柱状图啊),发现以死亡的人是以宽街(现在叫做Broadwick大街)上的水泵为中心,分布扩散开去;第三幕——解决问题:虽然不知道到底致命的原因是什么,但数据地图透露着一个秘密,一定与宽街的这个水泵有关系。关掉它,禁止所有人喝这个水井的水。感染也就失去了源头。

斯诺的手工专题地图。斯诺也被誉为前数字化时代的GIS鼻祖。极海极客分享中有现代复原版斯诺地图

故事,当听和讲的双方都在现场用语言表达时才最有感染力,数据的故事也不例外(让数据故事写的和《盗墓笔记》一样扣人心弦,三叔也做不到)。但当数据分析师、咨询师,以及用文字、图片、报告向数据故事的受众广泛传播的文案工作者,没法用声音的方式去让读者理解故事的内涵,Ta们只能自己对着图表去阅读时,数据图表的作者最起码要给出图表的解释。解释也算做最简单的故事了。

推特博主Cario教授,著有《真实的艺术:用于交流的数据、图表和地图》一书,去年十月份出版的新书《图表如何说谎:对视觉信息越来越聪明》,亚马逊上好评如潮。 他在今年3月份的推上转发CNN的视频时评论了“一图胜千言”:好的新闻报道不只是展示图表,还要对其进行解释。

Cario教授在《图表如何撒谎》中开篇就解释了一下特朗普在白宫西厅办公室悬挂的2016年大选战胜希拉里的地图以此宣扬自己如何受到美国人民的爱戴,就是一张迷惑人的“伪地图”。在书中详细的描述了,“人”的分布为什么不能用“县”的多边形表示,以及人数和分布的绝对相对关系。感兴趣的图表爱好者可以去查阅原书。

《美国人民夺回美国的内部故事:支持特朗普的公民》——特朗普宣扬的地图故事,似乎是全美国的公民都广泛支持他似的,其实是选举人票获胜的县地图。美国的总统选举地图有太多的故事。
而支持民主党的媒体更愿意用这样的地图,灰色代表支持希拉里的投票人,红色代表支持特朗普的,气泡大小是表示人数,总人数上希拉里更占优。
当然还是最简单的条形图不用费脑筋,支持希拉里的总人数更多。(上述图表转自Cario教授的书)

回到我们自己的工作。极海品牌监测产品要做好的事情首先是用高效、长期稳定、高频更新的技术方法让数据丰富可靠;第二,也致力于将数据可视化简单明了,并提供可解释的报告,能让数据成果一目了然的帮助决策者理解数据,做出取舍。目前我们已经能做到对单个品牌一键输出长图,长图中包含了众多的图表。对于每个图表,我们争取都能做出最通俗的解释,让读者理解图表的含义。比如在《苏宁小店,烧钱烧得并不值当!》中,小编为“好朋友”图做的解释是:

通过对苏宁小店的门店周边500⽶范围作统计,发现上图这些品牌出现在苏宁小店周边的概率较⾼,即对苏宁小店的覆盖率较⾼;圆圈的颜色代表行业,圆圈大小代表着覆盖率的高低,进而可以理解成为关联程度的高低。因此,对苏宁小店来说,绝味鸭脖最常出现的。 图中箭头代表着苏宁小店品牌之间的规律,比如苏宁小店>绝味鸭脖这条规律表达的含义就是,在苏宁小店出现的时候,很大可能出现绝味鸭脖。灰⾊箭头线条的粗细代表着这条规律的出现的可能性大小。
苏宁小店的“第一好朋友”是绝味鸭脖

对于苏宁小店在南京分布的空白市场地图时,做的解释为:

苏宁小店总部所在的南京,我们在寻找它的空白市场时发现,苏宁小店的空白市场非常零碎,并且小块分布。极有可能是它缺失了“好朋友”的引导。因为根据苏宁小店周边的好朋友的关系,我们提出⼀个假设,在好朋友和好朋友组合的周边,也应该出现苏宁小店。那么基于这个假设,⾸先提取出“好朋友”们门店出现的区域,在这些区域⾥⾯筛除掉苏宁小店门店存在的区域,剩下的就是苏宁小店“应该出现但却没有出现”的区域,也就是苏宁小店可以去开店但还没开的地⽅,即苏宁小店的“空白市场”。

当今的时代,数据越来越重要,而围绕数据的技能也越来越综合。在数据的范畴内,如果把机器学习算法、编程、统计学知识看做是硬性的能力,那对数据的解释,语言表达、撰写文字、乃至编辑故事就算作软性的能力。数据的时代,需要对数据的解释,需要讲述数据的故事,因为人与人的界面永远都是柔软的,故事是柔软的载体。能将数据解释好,更有故事性,这也是极海伙伴们每个人都会努力的软技能。

*封面地图引自Wendy shijia所作的长江流域水位图,细看也都有需要解释的故事。