从新闻中的地名共现看中国各地的联系强度
不久之前,小伙伴Atlas通过从 Wiki 中挖掘国与国之间的联系,以全球的宏观视角下,探究了中国与世界其他国家的关联情况。那幅员辽阔,拥有56个名族的中国,其城市和区域之间又是否会存在什么关联特点呢?所以小毅决定通过地名共现的分析方法好好探索一番。
地名共现作为分析城市或区域之间联系强度的一个有效手段,是地理学研究中一个重要的主题。互联网作为当前人们获取信息的重要来源,其70%的网页中蕴藏着地理位置信息。将互联网中的网页作为地名共现数据的来源,如果两个地名同时出现在一个web文档中,从统计学上来分析,通常意味着这两个地名所指代的地理实体可能存在某种联系。共现次数的多少则可以利用共现的文档数作为参考指标,共现的文档越多,则意味着相应的两个地理实体交互越紧密。
数据来源
新网网页做为互联网中的质量较高的语料,一般包含的地名更多,而且更加可靠。新浪作为国内知名的门户网站,其新闻质量较高,基本覆盖重要的新闻素材。因此此次初步探索的数据选取了12月的新浪新闻总共3015篇作为基础素材(http://roll.news.sina.com.cn/news/gnxw/gdxw1/2015-12-31.shtml) 。并使用GeoHey最新研发的带有地理类标注的分词服务,从文档中抽取出所包含的省级地名和城市级地名。其中包含这两类地名有2489篇,实际抽取到省级地名有4744个(每篇文档中统一地名只算一次),级共现对(tuple)数量9124组。
实验 & 分析
下图中 图1 和 图2 分别从统计视图和地图视图的角度展现了文档中地名的分布数量。从图1可以看出作为中国经济发展较好的北上广深出现频次较高(北京市、上海市和广东省),尤其是北京作为政治文化中心其重要性不言而喻。而类似经济发展相对滞后的省份和自治区出现频次较低。比较有意思的是香港特区(136次)和澳门特区(20次),虽然同为特区,但香港作为世界第三大金融中心,其关注度明显高于澳门。整个省级地名的频次呈现出较为明显的长尾分布特征。
图1 省级地名出现频数排序统计图
而从图2的地理维度则可以清晰的发现,出现频次较高的主要集中在珠三角,及东南沿海区域,等经济发展较好的区域。
图2 省级地名出现频次地图视图
接下来我们开始分析地名共现的分布情况,话不多说首先上图吧。从图3清楚的看出省份之间联系的强弱,其中北京(大帝都就不说了),天津,江苏,上海,浙江,广东相对于其他省份明显拥有更多联系和交互。
图3 省级地名联系强度地图视图
为了更好的探究一下省份之间的联系,本文单独可视化了各个省份的共现联系强度图。图4~图7分别展示了北京,上海,广东,香港与其他的区域的联系强弱。较为清晰明了的展现了区域的联系特点。
大帝都作为中国的政治文化中心,与其他区域都有非常强的联系。但是与河南,上海的联系更加紧密。
图4 北京与其他省份共现情况
经济中心上海与大帝必须紧密抱团。
图5 上海与其他省份共现情况
图6 广东与其他省份共现情况
香港除了和北京,上海联系较多,还和宝岛台湾联系非常紧密~~~
图7 香港与其他省份共现情况
总结
通过上述的分析,不难发现web新闻中的地名分布及联系特征可以帮助大家从一个新的视角描述发现区域之间的相关性,并作为城市区域排序的基础。在小毅看来,利用分别利用各类web新闻数据,如经济,科技,农业,体育等,抽取地理信息实体,然后挖掘各个细分领域城市及区域之间的强度是一件可以尝试的事情,比如:经济方面的京津冀和珠三角。
本文只是通过可视化的方法定性的初步分析了中国省级行政区划的联系情况,缺少定量的分析总是不完美可靠的~ 另外由于只有1个月的数据,有存在较大偶然性的可能~ 后面的blog,小毅将继续通过相关的定量模型和更多的数据为大家探究一下地名共现背后的深层次联系。
附录:
GeoHey最新的分词服务支持地理类别的标注功能(即将上线,大家是不是有些小鸡冻了,逐步逐步智能化了,~(≧▽≦)/~啦啦啦)。目前支持的标注类别如下:
地理编码—分词 词类标注
- 国家 n
- 省级 pr
- 市级 ct
- 区县 cn
- 乡镇 tn
- 村庄 vil
- 商圈 cd
- 道路 rd
- 门牌号 sn
- 道路交叉路口 cr
- 公交枢纽 pth
- 兴趣点 poi
- 方位词 nol
- 未知 null
欢迎从GeoHey获取地理和位置相关的数据、知识、服务
访问网站 http://geohey.com
联系我们 contact@geohey.com
长按关注公众号