Geocoding系列:(二)关于路的一百种错误假设
只要不用全文匹配来Geocoding,大概就要想办法区分出地址的各个组成部分。虽然可以用如CRF之类的统计模型进行标注,但标注结果往往有很多错误还需要一些后处理纠正,这就未免对地址的各个组成部分作出各种假设。比如道路的结尾一定是 “路”, “街”, “道”, “弄” 之类有特点的词吧。有了这个想法我就去把库里所有道路的最后一个字统计了一下,想着如果有其他的字也不会很多,说不定还是误标,正好可以纠正一下错误。
然而,有梦是好事,可惜不现实。
这一统计浩浩汤汤出了350多个尾字。
首先映入眼帘的就是各种数字。点进去一看原来都是各种高速公路省道国道,好像很正常。嗯?这是啥。“农开路1”。还有“农开路2”,“农开路3”,“农开路4”,这怎么看都是不小心把门牌号混到路里了吧!兴冲冲的把这些农开路加到勘误列表里。不过还是顺手百度一番好了。
什么情况?!难道真的是不同的几条路?这要怎么区分这些数字是路还是门牌号啊……
继续往下看发现了“东西南北”。点进去看看发现都是各种“路东路西路南路北”。这没问题吧?难道不应该是“东路西路南路北路”?不会是从路东300米的路东提取出来的提取错了吧。随便找一个搜一下。
看来中国不同地域的语言习惯真是颇有不同,是我大惊小怪了。
接下来发现了“市”结尾的。
苏州市平江区西中市
是了,这些是当年的街市啊。以“市”结尾的可不光有城市。
继续往下看,这回看到了个了不得的!“高家酒馆”!你打死我也不信这是个路啊哈哈哈看我给他加入勘误列表!
江苏省南京市鼓楼区高家酒馆
……对不起请打死我吧。
好吧我们继续,“商业大院”。
河南省开封市鼓楼区商业大院
我就知道。这次已经有了一丝心理准备……其实以院结尾的还有不少,如
湖北省武汉市武昌区读书院
这些过去大概真的是大户人家的院子或者其他的庭院。只不过后来开放给了老百姓之后院子里的路就成了公路了。
还有很多当年的村镇窑场,后来并入城市之后直接用当地地名作道路名的。
北京市丰台区白盆窑
还有很多以附近著名建筑或景观命名的。比如“大钟寺”,“天地坛”,“五岳庙门”,“鼓楼后”等等。
福建省南平市建瓯市鼓楼后
此外还有一些奇怪的名字是当初作为殖民地时候外国人起的路名的译名。
澳门亚马喇土腰,现名为关闸马路
这么一圈看下来,你问我有什么感受。请看我绝望的眼神 눈_눈
中国地址实在有太多规律之外的东西,中国各地的习惯风俗差异大,命名习惯大有不同。还有各种文化历史上的缘故,让很多本来不是路的地名都成了路。哎,这些名字后边如果都能加个“路”字“街”字什么的那该有多好,而事实实在是令人困惑。连人看见都得去查一查这到底是个什么,是一个路还是一个地点还是一个方位描述?不同语境下说不定指代还各有不同。你让机器怎么识别呢。
看来这CRF神教怕不是要亡了。还是弄个词典来吧 😂
最后来看个所有路名后缀前20名排行榜吧。
什么?你问我这次怎么不是上次预告的“美国主流geocoding方案介绍”?都写了(临)了,自然不存在的