别相信直觉,但相信数据——真难

万老师第五季解读的《Don’t Trust You Gut》,很快中信就出版了中文版本《别相信直觉》,副标题比英文原版更递进了一层——从《USING DATA TO GET WHAT YOU REALLY WANT IN LIFE(利用数据获得你真正想要的生活)》到《用数据优化工作、生活 做出更好决策,逆转你的人生》。

截图来自豆瓣

书中的每个例子都挺反直觉的,但作者的分析基础都很朴素,就是通过全社会的数据统计,看综合,看整体概率。比如一个例子:大数据研究表明,哪怕你用最好的养育方法,最大的可能性只是把空姐变成牙医助理,年收入从59,000 美元提升到75,000 美元。换句话说如果你的养育方法耗资巨大,还不如把钱直接留给孩子。

这个统计结果和推论都得气死全中国鸡娃的父母,已经鸡娃上岸的父母也不能服气。好在这是基于美国的统计,随便找一个中国家长都能给你说出一堆反例。不过我需要再次强调,本书中的『大数据』方法,是统计,简单的说,就是人群中各种比例的情况。不是说将所有所有的案例都全部拿出来跟你叨叨一遍。

好吧,直觉不靠谱,人家有例子为证啊!那就相信数据。先别说统计知识、概率思维了,就先说说数字,你测测你对数字的敏感性。

对于数字,我举三个例子:

1、小Q现在的年薪是10万,每年比上一年涨薪10%。请问7年以后,小Q的工资是多少?

你说这个简单啊——公式是:10万✖️(1.1^7)=19.487171万。嗯,这确实是初等数学知识,但人类大脑忍不住要自动浮现的数是17万;

你说我不会自动浮现这么『低智』的结果,那稍稍增加一个变量:小Q还是每年涨薪10%,但现在又知道每年全社会有5%的通胀增长率,请问7年后小Q的实际购买力是现在的多少倍?你的大脑会不会自动浮现出1.5倍来?实际上是(1+10%)^7*(1-5%)^7=1.361。也就是说增加36.1%的实际购买力。这个数字对大部分人,都不太可能自动浮现出来,至少你要掏出手机计算机算算;

2、有个黑色袋子装有10个从1到10编号的小球,小Q闭眼伸手进袋子顺序抽出6个小球,你认为下面那组数字更正常点(感觉是随机的,小Q没有作弊的):

2 3 5 8 9 10

1 4 7 3 9 2

第一组数字既从小到大排列,还有两个连号,看起来一点都不自然;而第二组,分散的那么『乖巧』,随机性相当好。但实际上第一组才更随机(出现的概率更高),而第二组是不自然的,因为故意避免相邻数字的选择方式反而是刻意的。但我们大脑的认知恰恰相反;

3、小Q收集了自己创业的500家茶饮店过去365天的日销售额。Ta记录了每家店每天的观察变量:

  • 当天该店所在城市最高气温(摄氏度)
  • 当天是否为周末(是为1,否为0)
  • 当天是否为假期(是为1,否为0)
  • 菜单当天是否有新品推出(是为1,否为0)
  • 前一天的销售额(元)

Ta想用这些变量预测一下每家门店未来每天的销售额。小Q知道自己不灵光,聘请了个大数据专业的大学生,人家给出来的预测公式是:

sale = w1temp^2 + w2weekend + w3holiday + w4new_product + w5*sale_prev_day^2

公式中w1到w5是算法拟合后的权重系数,temp,weekend,holiday,new_product,sale_prev_day分别对应小Q记录的五个变量。小Q问大学生,五个变量中只有两个有不同的数值,另外三个不是1,就是0,怎么还整出机器学习这么复杂的算法来了?大学生说,五个变量,计算五个权重,机器学习最靠谱最准确,计算也省时省力——罗森布拉特,那是很基础很标准的函数。把你的500家店365天的销售额和变量输入进去,瞬间就能跑出这个结果。如果你是小Q,你想不想接受大学生的非线性方程用来预测销售额?而不是根据简单的相关性。

对于第一个例子的数字计算,大部分人慢慢琢磨一下都可以搞定;第二个例子,相当一部分的人会将信将疑;第三个例子,绝大部分人都会放弃研究罗森布拉特,也不会在大脑中明晰绘制出一幅五个变量怎么组合影响销售额的图景。

数据太反直觉了,人类大脑远远还没进化出高效的机制去和数打交道,你相信自己的感觉、跟着传统走,顺理成章,一点不纠结;但『专家』们又说,直觉太不靠谱了,你要听听数据是怎么说的,而且数据还能撒谎,你得自己去判断,否则你的判断是昏招、婚姻不幸福、财富打水漂、工作没着落。。。

根据统计,一个人一生要做出可能改变命运的决定,不超过10个。更严格意义上的决定性不超过5个。说实在的,相信直觉还是依靠数据,大部分时候都不是那么重要。但是企业不一样。当下中国这样稳健而充满希望的新兴经济体尚且已经进入微利时代,全球在哪儿哪儿都是超级白热的竞争。靠直觉决策,根本活不下来。

收购了Tableau的Salesforce在去年年底发布了2023年数据和分析现状的年度报告。该报告基于10000个IT主管、分析师和业务领导对大数据技术、人工智能中的数据基础、数据安全等多个维度的调研意见汇总而成。

首页的英文,由笔者翻译成中文。原pdf见Tableau官网

如果认为人工智能是必然,那数据的关键价值就更是必然。企业领导者们也闹心,别说拥抱人工智能了,就现在,企业的数据完全没有发挥出来潜力:

人工智能并不新鲜,但它在未来商业中的根本作用却是全新的。人工智能,尤其是生成式人工智能,是我们有生之年将看到的最具变革性的进步之一,但仅仅投资于人工智能的技术能力是不够的。企业必须优先考虑全面可靠的数据基础,以帮助指导决策和战略制定。随着企业迅速拥抱人工智能并实现其优势,信任必须成为他们的首要任务。要想让人们信任人工智能,首先必须信任为其提供动力的数据。将数据视为人工智能的均衡饮食——避免吃垃圾食品,摄入所有适当的营养素,才是最健康的饮食。简而言之,企业只有在准确、全面的数据支持下,才能充分发挥人工智能的威力。我们的《数据与分析现状》报告强调了这一重要联系,以及对可信数据的迫切需求。然而,企业领导者几乎一致认为,现在的企业并没有释放出数据的全部潜力。

另外一个闹心的现状是,数据的效益,怎么看不到呢?好像大部分的好决策并不是数据帮着CIO、CTO、CDO们做出来的,还是一群C们一起拍脑门子定下来的。

在业务和技术利益相关者就核心目标达成一致之前,对组织数据的掌控可能不会见效。许多领导者承认,他们需要更紧密的协调:41%的业务部门领导表示,他们的数据战略与业务目标只有部分一致或根本不一致。同样,37% 的分析和 IT 领导者认为还有改进的余地。造成这种脱节的部分原因可能是缺乏共同的关键绩效指标。例如,超过六成的分析和 IT 领导者对业务团队的数据利用率或洞察速度一无所知。此外,只有不到三分之一的分析和 IT 领导者跟踪数据货币化的价值。这就提出了一个问题,即大多数团队是否能够首先为业务利益相关者有效量化数据计划的投资回报率。

分析师和IT领导们都在关注什么?

在我看来,主管们更应该紧盯的一个指标是企业中数据思维的深度和广度。或者说叫做数据文化吧。

这种数据文化包括整个组织对数据的理解和尊重,以及每个员工如何使用数据来进行决策。必须将数据文化视为企业战略的核心部分,通过培训、教育和实践来推动其在整个组织中的实施。

实现这一目标的当然最好是从顶层领导开始,全身心地投入到数据文化的建设中。领导们以身作则,展示出对数据的尊重和理解,以此来影响和激励其他员工。同时,Ta们需要为员工提供必要的资源和支持,包括提供数据教育和培训,以及投资于数据工具和技术。还需要积极地寻找并扶持数据领导者。这些数据领导者不仅需要有出色的数据技术能力,而且还需要有领导力和影响力,能够作为数据文化的代言人和推动者,引领整个组织走向数据驱动。

信直觉还是信数据,从个人的角度,不论是谁的教徒,当下的我们都至少意识到了数据的重要性。企业还要更进一步,就是全员如何正确地使用数据。这很难。但也只有这样,我们才能真正地从数据中获益。

在彻底颠覆现有世界AI诞生的前夜,还能留在牌桌上,给自己主动创造下一轮的机遇。