AI与地理:Claude3, GPT-4, 和 Kimi的能力评测
在上周的探究中,我们仅触及了Claude3 Opus的编程潜力。本周,我带来了更深入的探讨,意在对比Opus、GPT-4以及国产AI平台Kimi在地图和地理信息系统(GIS)领域内提升工作效率和质量的能力。适逢GPT-4 128k API的开放,提供了测试这些先进技术的绝佳时机。不再赘述,让我们直接进入本周的实验。
第一、先看看长文档的阅读能力和『演绎』能力。
我选了一本经典书籍的最新版本作为测试样例——《地理信息系统基础:地理信息系统的第一本教科书,第七版》(GIS Fundamentals: A First Text on Geographic Information Systems, seventh Edition)。全书700多页,23万字,如果一次性上传,我担心Ta们三个家伙都罢工,将其拆成5个文档,再上传给Ta们阅读。
![](https://blog.geohey.com/content/images/2024/03/1-2.png)
首先上场的Kimi就给我甩脸子。单次、多次上传均不可以,说我超出了对话长度。不是宣传的20万字吗?我以为是要付费版的才可以,但折腾了半天,找不到付费的地方。
![](https://blog.geohey.com/content/images/2024/03/2-2.png)
我给Claude3和GPT-4,提了一样的问题:
请阅读这几篇文档,形成统一的认知,请总结这本书比其它GIS书籍好在哪里?
![](https://blog.geohey.com/content/images/2024/03/3-2.png)
Claude3的总结,中文很『友好』啊。与时俱进,循序渐进,紧跟前沿这样的词都用的很『官方』。
![](https://blog.geohey.com/content/images/2024/03/4-2.png)
GPT-4的总结大概和Claude3是一样的,说明对于这本阅读材料,两个人工智能的见解基本一致。可惜了Kimi没法阅读全文,我很想听听Kimi的意见,是不是有独特的观点。
随便从书中抽取一块,看看Ta们阅读的准确性。有没有胡编乱造的幻象。
![](https://blog.geohey.com/content/images/2024/03/5-2.png)
表现的都很棒,没什么造次。另外,我还让Ta们总结了一些章节,并用章节里面的知识生成一个操作实例,并给我提供用于实例的数据下载链接。
![](https://blog.geohey.com/content/images/2024/03/6-1.png)
在这个操作中,Claude3的流程和GPT-4不同。我判断都是可以的。GPT-4提供了数据下载链接,这一点比Claude3任务完成的圆满。这里就不再细说。
第二个测试,图片风格的识别以及连贯性的任务。
请识别这幅画,指出这是谁的作品,并以这幅画的风格为提示词,输出一段给midjourney的指令,让midjourney生成一幅具有该风格特征的中国地图,一定注意,要有台湾。
![](https://blog.geohey.com/content/images/2024/03/7-1.png)
在这项测试中,GPT-4和Claude3都失败了,给不出有效的画作信息,GPT-4还是『勉强』给出了prompt。我用这个prompt生成了中国地图,选一幅如下:
![](https://blog.geohey.com/content/images/2024/03/8-1.png)
显然风格与赵无极的画差距还是很大的,太不抽象了。本文封面,我是直接在midjourney中将原画作为『垫图』,风格上是不是更加接近大师?
Claude和GPT拒绝回答,我猜不是Ta们本领不够,而是对知识产权的保护,尤其是Claude显得更加保守一点,完全不理会我的提问。这幅作品还是很出名的,Ta们不太可能识别不出来。你看Gemini瞬间就告诉答案:
![](https://blog.geohey.com/content/images/2024/03/9-2.png)
之所以我觉得Claude3在图片识别上没有问题,因为Ta在由路网组成的城市意象识别中完胜GPT-4和Gemini:
请判断这是哪个城市的路网组成的城市地图?
![](https://blog.geohey.com/content/images/2024/03/10-1.png)
![](https://blog.geohey.com/content/images/2024/03/12-1.png)
![](https://blog.geohey.com/content/images/2024/03/11-1.png)
![](https://blog.geohey.com/content/images/2024/03/13-1.png)
![](https://blog.geohey.com/content/images/2024/03/14-1.png)
我的评价是,Claude3 200k和GPT-4 128k的长文本阅读和提炼能力都很值得信赖。我从POE接进来的服务体验来看,GPT4-128k的响应效率比claude3 Opus 200k要高。下次再试试平衡了性能和效率的Sonnet。再次可惜的是Kimi没有机会完整的测试。
最后测试一点复杂的任务。
请写一段python程序,帮助我将pdf文件中的英文全部转成中文,并将文字仍然放在原始英文的位置上,输出为新的pdf文件。
测试用例虽然只是一页的PDF,但是要是将所有的文字翻译成中文,然后再组成排版相同的成果,从我的认知中,觉得这项工作当真是复杂的。
![](https://blog.geohey.com/content/images/2024/03/15-1.png)
Kimi和GPT-4都象征性的给出了python程序,但也都提示,这个任务不太可能用程序完成。
Claude3仍然表现出了过人的严谨性:
![](https://blog.geohey.com/content/images/2024/03/16-1.png)
尽管最终的编程挑战并未完全满足预期,这恰恰凸显了在面对非线性、非程序化问题时,人类智能的独特适应性和创造力。在这类任务中,逻辑的“如果…且…那么…”不足以涵盖所有变量。相反,人类大脑的自然跳跃、决策选择和错误容忍能力显得尤为关键。例如,对于文本过长的处理,我们可能会选择删减;对于布局不协调,我们可能会本能地调整。这些看似主观和随意的决策实则是人类独有的灵活性和判断力的体现,暗示着AI当前还无法完全替代人类的某些能力。
本文的核心目的是紧跟全球AI的最新应用,并理解Ta们如何服务于我们的工作,尤其是在地理信息系领域。这次的评测只是众多可能探索的起点。我们希望激发更多思考:随着新的“智能大脑”不断问世,我们如何将其引入工作流程,挖掘潜在的改进空间呢?极海也会坚持行动下去,将继续致力于研究AI与地图、地理数据的融合,不断提升服务质量,同时也增强我们对这个世界的理解和认识。