极海数据分析（下）：我们在做什么

数据分析 • Nov 28, 2016

如果您看过极海数据分析（上）：机器在做什么，您就会知道，本文题目中的“我们”，指的是人类大脑——作为数据分析师的我们。

深度学习技术的惊人发展，似乎让数据分析师变得不重要了——它就像一个自动面包机，面粉、水、糖放进去，程序参数设好，我们坐等收获面包就好了。全麦也行、椰香也行，我们都可以编一个程序来对应。

（图：Emily @flickr）

甚至于，当我们要做更复杂的烘焙，比如说黑森林蛋糕；在技术继续发展的将来，也许机器都能帮我们把奶油打发、巧克力戚风烤好、樱桃汁涂上…… 那么，还需要人类烘焙师做什么呢？

——也许，人类需要设计黑森林蛋糕。当蛋糕的配方逐渐多起来，机器都能够排列组合来发明新蛋糕了…… 则人类在吃腻了蛋糕之后，可以设计蛋挞。设计 芝麻火烧。

我想表达的是，在可预见的未来，即使机器聪明到能用我们无法理解的方式完成任务，我们依然需要帮它 设计梳理明确的任务流程 ——这就是人类的工作。

（图：murray-company）

在上篇《机器在做什么》中，其实有一个trick，就是我们一直在以预测作为任务。这个任务是不是很像围棋？规则极简单，用一系列x来预测y；而可能性的空间极大，找到唯一最优答案几乎是不可能的任务。这正是深度学习最擅长的任务。

那接下来我要提出的两个问题——也是我们在项目中会实际面对的问题，就远没有这么简单直接了。

（1）如果我不是单纯预测会员数，而是要分析北京这个城市里，我要开多少家店，每家店在哪里，我能实现最大盈利，该怎么分析？

（2）再抽象一点，就说我现在有500万的资金，要在北京投资1-2套房子，该怎么投资？哪些房子5年后的回报率最高？

于是，带着人类暂时还得以留存的优越感，我来讲讲作为数据分析师，面对这样问题的思路。

a. 开店问题

我们要分析的品牌（属于对距离较为敏感的销售行业），在城市中已开了几家店；其竞争对手暂时还没有进入该市场，但将来有潜在的可能。

于是，我们立刻想到，开店数量从少到多的轴上，可能有这几个阈值（假设k家店理想均匀分布）：

当店数达到k1，店和店之间的Trade Area交集将无法被忽略，盈利随店数的增长趋势会有一个明显拐点；
当店数达到k2（这个值有可能存在，也有可能因其理论值小于k1，而没有太大意义），如果竞争对手想进入市场，他在任意位置开店占领的Trade Area都无法让他盈利；
当店数达到k3（有可能大于k2，也有可能小于k2），所有店的总盈利达到最高值，再增加店时，能占领更大的市场，但单纯考量盈利会下降；
当店数达到k4，所有店的总盈亏平衡，再增加店时，能占领更大的市场，但会亏本。

当然，实际市场非常复杂，k家店的理想均匀分布也是个不现实的假设；不过，从复杂的市场中抽象出模型，在简化的过程中不丢失决定性的细节，正是数据分析师的工作。

接下来，在分析了“市场”后，我们就要把它用我们的地理数据进行翻译和解释：

营收由会员产生，会员由人口产生，因此营收的基础数据为人口数据（可以简单认为是人口经由一个转化率成为了营收）；
由于我们所分析的行业对距离较为敏感（可以想象，买车的人不会在乎跑到城市另一头，但买菜的人只会在家门口），人口是否转化为会员，第一级的因素是距离；
第二级的因素包括很多，我们既可以用人群属性（年龄、收入、教育程度等），也可以用位置属性（是居住区还是商业区、交通是否方便、是否高档社区等）来进行描绘。

从上到下，理清了层次关系后，我们就可以反过来从下到上，在已有的两家店会员数据基础上一步步进行建模分析了：

控制一级的距离变量（例如：将会员到店距离分为若干区间，原则是在保证每个区间会员数能满足样本量要求的情况下尽量细分，然后在个区间内计算，从而实现控制变量），用所有二级的变量预测会员数；
完成上述模型后，可得到在每个距离变量区间，当所有二级变量都取平均值时，人口到会员的转化率；其意义是，在一个无区别的（剥除了位置等特性的）环境里，会员和人口的关系是什么；
从距离零开始，转化率求积，得到一定人口密度时，随着Trade Area扩大的会员增长曲线；
为了简化模型，如果假设每家店的Trade Area内部人口密度基本一致（店和店可能会差异很大），那么在地图上给定任何选址点，和该点附近的人口密度，就有了一个明确的Trade Area半径（可体现为路网距离，也可体现为车行时间等）和会员数之间的函数；
此时，大量的二级变量虽然参与到函数的生成过程，但并没有参与到预测的本身，我们依然在预测“无区别的”环境；于是就轮到深度学习出场，用所有二级变量共同预测一个系数，作为对人口到会员转化率的影响因子，加入最终的方程中。

最后，我们就可以回到市场覆盖问题了。我们把城市看做是一个空间格网，掌握了每一点上的基础信息、每一点上的会员数函数；而客户提供给我们他们的成本、盈利计算方法后，我们就可以根据客户需求，计算开头提到的k1、k2、k3、k4，或是某个介于k3和k4之间的选址规划了。这个问题依然复杂，然而不再是人脑层面的（规则上的）复杂，而是到了机器所擅长的（算法实现上的）复杂——就可以交由机器告诉我们最优解是什么。如有需要，再由人的经验认知输入反馈、调整模型，直到得到最终满意的方案。

b. 买房问题

解决了开店问题，我们再尝试把这种思路推广应用。

到了买房投资领域，又引入了一个重要的数据维度——时间维度。我们手中的二手房成交数据，会分散在时间和空间的各个位置；一套房子是在五年前成交的，另一套房子是在三年前成交的。我们很难知道同一个房子的成交价怎样变化，而只有零散分布在时空平面中的，无法连成线的信息。那么该怎样控制变量，找出价格的变化规律？还按照之前的梳理方式：

基础变量——价格随时间的变化，这是我们分析对象的本质；
一级因素——位置，它是价格变化趋势的决定性影响要素；
二级因素——所有其他变量，可以看作是对位置影响的一个附加加成（部分因素会与位置有关联，例如POI类，需要留意）。

（图：Rich Borst）

就像开店问题中，把样本按距离切片；此处我们把所有的房屋交易按时间切片，原则依然是在能满足样本量要求的情况下尽量细分——例如说分到每个季度。则对于每个季度内的房屋交易数据，都进行位置因素的分析：

基于所有二级变量，通过位置建模（位置建模的概念可以参考Geographically Weighted Regression这个基于线性回归的建模方法），得到每个交易点上不同的价格预测模型，即：在不同的地理位置，二级变量对价格的影响模型——位置上接近的点，其模型会更相似；
当所有二级变量取平均值（去除它们的因素）时，每个交易点得到一个只受位置影响的基值价格；
每个基值价格相对于所有基值价格的平均数，就得到了这一点的位置因子。

（图：Rich Borst）