利用机器学习对影院进行科学选址（二）

近年来中国电影票房呈快速增长模式，特别是今年春节所在的2月份更是创造了月票房百亿的新奇迹，电影院的数量也在快速增加，每年约增加近千家影院。

新增的电影院不可避免的涉及到选址问题。最传统的选址方法是派人到实地深入调查，这不仅耗时耗力，而且还存在很大主观因素，并且而将范围扩展至多个城市的时，个人和小团队仅凭商业直觉和有限的知识是远远不够的。这从而推动了利用商业数据进行商业选址，在美国选址的地理数据分析以及很成熟了，但在国内，地理数据选址分析却一直处于瓶颈状态。一方面是地理信息的获取难度高。作为分析建模的基础，没有靠谱的数据，实属巧妇之无米之炊。另一方面是建模的难度大。海量的初始数据存在精确度问题，没有相关的经验，很难把大数据驱动起来。

得益于公司在大数据方面的积累，我们拥有了丰富的地理大数据，包括但不限于数千万的POI数据、人口数据等，结合机器学习算法，来为影院选址提供决策依据。

先看看北京市现有影院分布及各影院票房数据，这里我用各影院2018年Q1日均票房来表示，同时用日均票房来表示影院的经营状况。我们将在哪开电影院的问题转换为在哪里开电影院能获得高的票房收益。为解答这一问题，从已有的影院票房为样本，结合地理大数据和机器学习建立模型，来预测不同地方开设影院的票房。

影院的经营状况和影院周边环境，如人口、交通、商业等密不可分。影院周边环境表达一般的做法是统计影院一定范围内（如一公里缓冲区）各地物信息，或者是对城市做大小一致的格网，统计影院所在格网的信息。缓冲区不便统计整体情况，而且也和格网一样，没有考虑现实世界的实际情况，如河流、道路之间的阻隔，同一地物划分到了不同的单元中，因此在实际使用时，有局限性及误差。

考虑到在城市中使用格网局限，我们以城市公共道路、河流、铁路、山体等自然形成阻碍作为分区界限，生成全新的地理统计单元：自然街区，这种划分能更精确的描绘真实世界，更准确的抓住事物联系。并且我们还有各街区间的实际通行时间和距离，包括步行，驾车，公交，在分析时能近可能的还原现实世界场景。

影院周边的环境使用各影院15分钟可到达的街区的信息，统计街区内的所有POI类别数量、人流量、影院座位数、屏幕数等信息，使用相关性分析，计算所有因子和影院票房的相关性，选出了相关性较高的二十多个因子，包括影院屏幕数、座位数、商场数、专卖店数、外国餐厅数、培训机构数、地铁站数、工作居住人数等等。

使用机器学习中的随机森林回归算法建立影院票房预测模型，并用测试样本进行测试，模型测试结果如下，拟合度较高，用该模型评估全北京街区影院票房估计值。
预测值: 124375.09, 真实值: 142128
预测值: 33890.99, 真实值: 34032
预测值: 55560.78, 真实值: 54079
预测值: 34934.91, 真实值: 26414
预测值: 42856.78, 真实值: 46140
拟合度: 0.95

现计划开一家中等规模的影院，选在哪里能获得最好的收益呢？使用上述模型我们计算出全北京各自然街区的预测日均票房。从下图可以看出，现有影院（图中蓝色点）大都是开在预测票房较高的区域，如果要新开一家电影院，应优先选择预测票房较高且附近没有电影院的区域。

欢迎从GeoHey获取地理和位置相关的数据、知识、服务

访问网站 http://geohey.com

联系我们 contact@geohey.com

QQ群 164183186

长按扫码关注公众号