大模型真能写代码当生产力？一场“中国地图烟花秀”揭露了AI的真实水平！

Jun 26, 2025

一、AI浪潮下，普通人能抓住啥？

我常常琢磨，咱们这些普通老百姓，在这波人工智能的滔天巨浪里，到底能“捞”到什么？我也想扯一扯那些高大上的“哲学奥义”、“蛋白质三维结构”，无奈那些玩意儿离咱太远，也太玄乎。说白了，对我们而言，这AI，无非就那么几个用法，一层比一层“顶”：

解惑释疑：遇到个事儿，问它。它能从海量信息里给你捋出个头绪，比你大海捞针自己搜强点。
文笔润色，内容创作：写点报告，P个图，捣鼓点音乐视频啥的。这算是把AI当高级工具使。
创意激发，脑洞大开：有时候卡壳了，跟AI聊聊，它能给你点新点子，拓宽一下思路，这叫“人机共创”。
编程写代码：这玩意儿，才是真正能把普通人“抬起来”的杠杆！你想想看，一段程序，它能变成工具，能做出产品，甚至能成为你创业的根基！这可不是闹着玩的。

所以，我一直有个观点：要验一个大模型的“智商”成色，别去考它那些“奥数题”，那些花里胡哨的学术玩意儿，它高考题能答多少分和咱没关系。你就看它能不能给咱把程序这活儿干漂亮了！这才是真金白银的生产力。

二、一场“烟花秀”，八大模型现原形！

最近我就喜欢拿些小任务去“盘”这些大模型。上周为了做极海品牌监测视频号的文案，折腾了一个用HTML做的烟花动画，最后那烟花，炸开后在屏幕上闪烁着，组成的是个中国地图的轮廓。那效果，说实话，看着还挺带劲！

这周，我又想起这段动画程序。我想看看，面对同一个“朴素”的Prompt，这些市面上的主流大模型，到底有几斤几两。为了避免它们给我“幻觉”乱编，我还特意把中国地图的轮廓点，用GeoJSON格式给它们喂得清清楚楚、明明白白。Prompt就是最最简单的样子，只有任务描述：

请用现代HTML技术，生成一个单一html页面。页面显示的内容是放烟花。烟花爆炸后，部分烟花留在屏幕上，这些残留的烟花闪烁，组成中国的地图轮廓形状。闪烁点请参考如下GeoJSON格式的经纬度坐标点。要求空格键开始播放。页面没有其它元素。

{ "type": "FeatureCollection", "name": "中国坐标点", "crs": { "type": "name", "properties": { "name": "urn:ogc:def:crs:OGC:1.3:CRS84" } }, "features": [ { "type": "Feature", "properties": { "ID": 94559 }, "geometry": { "type": "Point", "coordinates": [ 75.22308, 37.77375 ] } },
.....

（这里省略了470多个中国地图坐标点，要是让AI自己生成，真够呛，但还是要看AI能不能给我老老实实照着画！）

结果呢？嘿，算是“喜忧参半”吧！

1. 豆包1.6：有点“惜墨如金”

第一个上场的，是字节的豆包1.6。它倒是把烟花放出来了，轮廓点也闪了。可问题是，它给我“隐去”得太多了！那中国地图的轮廓，稀稀拉拉的，压根看不清。这就像你画画，笔墨省着使，结果画了个半拉子，这叫什么事儿？它仿佛在说：“我知道你是要个地图，但我偏不给你画完整，自己去脑补吧！”但是看程序，所有的点都在，只是她安排这些点闪烁的节律有点太缓慢。

2. Grok3：性子太急，没了惊喜

接着是马斯克家的Grok3。这哥们儿，上来就把底牌全亮了！烟花一炸，中国轮廓点“Duang”地一下就出来了，没有一丝丝防备，也没有预期中的“烟花渐隐成图”的惊喜感。这就像你看电影，导演把结局直接在开场就告诉你了，那还有什么意思？

3. OpenAI的O3：憋不住的“聪明劲儿”

第三位是OpenAI的o3。它比Grok3稍微能“憋”一点，没那么快亮底牌。但也没憋多久，中国轮廓点也马上就蹦出来了。虽然效果还行，但跟我的要求——“烟花爆炸后，部分烟花留下，组成形状”——还是差了那么点意思。它可能觉得：“哎呀，这么点小要求，我分分钟给你搞定，还玩什么悬念？”

4. Gemini Pro 2.5：聪明反被聪明误

轮到谷歌的Gemini Pro 2.5了。这家伙，节奏把握得倒是不错。可万万没想到，它给我来了个“骚操作”——最后那些轮廓点的位置，竟然跟我给的有！很！大！出！入！它显然是拿着我给的数据，自己“深度学习”了一番，然后“自作聪明”地给我做了一番“优化计算”。结果呢？中国地图的形状是对了，可它给我跑到了一个“玄幻”的位置，简直是驴唇不对马嘴！你想想，这要是真拿去用，那不成了“问题地图”了？AI的“智商”要是体现在这种“不老实”上，那可真是要命！

5. DeepSeek v1 0528：期望越大，失望越大

第五个上场的是DeepSeek v1 0528。我对它本来是寄予厚望的，毕竟平日里，这家伙的编程能力是出了名的强。国产模型的能力担当啊！结果呢？它就给我“噗嗤”一下放了第一束烟花，然后……然后就什么也没有了！就像一个精心准备的舞台剧，开场就熄火了。这完成度，太意外了，简直是跌破眼镜！

6. Claude Sonnet 4：又爱又恨的“完美主义者”

紧接着是Anthropic的Claude Sonnet 4。这家伙，简直是“惊艳”！比我预想的还要好，几乎是完美地实现了我的要求。烟花效果艳丽，轮廓点闪烁得恰到好处，节奏也把握得非常棒。

但说到Claude，那可真是让咱们这些使用者又爱又恨！它的代码生成能力，它的审美水平，简直是“高高在上”，让人拍案叫绝。你想要的代码，它给你的不仅仅能跑，往往还写得漂亮，结构清晰。可问题是，它那“说封就封，不留情面”的脾气，也让无数人心惊胆战，如履薄冰！你这边正用得欢，说不定哪天，你的账号就“驾鹤西去”了。这种能力与“任性”并存的矛盾体，简直是AI界的“霸道总裁”！

7. Minimax的Agent：国产黑马，异军突起

第六个出场（原文说是第五个，我这里顺延一下，毕竟前面漏了一位），是最近大火的Minimax的Agent，据说基于他们自研的M1大模型。这家伙，给了我最大的惊喜！完成度非常棒，基本上都在我的Prompt要求范围内。虽然烟花效果不如Claude那么艳丽，但贵在精准和听话，这对于写代码而言，有时候比花哨更重要！看来国产AI，正在悄悄发力，不容小觑！

8. 本地部署双雄：Qwen与Mistral，心有余而力不足？

最后出场的，是两位“本地部署”选手：阿里的Qwen 32B Max和Mistral的Devstral 24B。

结果呢？还是让我大失所望。这俩哥们儿，一个直接给我“挑毛病”，BB赖赖地指出我的数据有问题，另一个响应了个莫名其妙的JSON文件，就几条数据，感觉也是在“数落”我的Prompt有问题。

我再次“强迫”Qwen按照我的prompt生成HTML，它给做了一个GIS上图。确实理解有问题。Devstral给的代码更是无法运行的。这不奇怪，说白了，用本地大模型搞编程，在咱们普通人的笔记本工作站上，确实是“巧妇难为无米之炊”，性能根本达不到理想水平。你想要既保护自己的私有数据，又想通过代码放大自己的资产价值，这在短期内，确实是个“艰难的任务”。硬件跟不上，再好的模型也只能“英雄气短”。

三、AI编程，效率才是硬道理

这次所有的测试，我都是“一次机会，不修正”。也就是说，不给它们二次修改的机会，直接看“初见杀”的效果。其实，那些参数足够多、表现不错的模型，通过多轮对话，反复修正，最终也能把程序搞定。但我就是想测测，同一套Prompt下去，谁的效率更高，谁更能“一次入魂”！

我相信，除了那些本地部署的，因为参数实在太小，性能跟不上，其他的大模型，只要你指出问题，它们都能改正。毕竟它们只是AI，不是人，你得教会它。但在我日常的编程使用中，我觉得DeepSeek的编程能力绝对是排得上号的，这次可能真就只是个小意外吧。

这事儿再次验证了什么？

第一，AI编程能力，是检验大模型“智商”的最高标准之一。 那些能把复杂指令，尤其是带着精准数据和特定行为逻辑的指令，翻译成可用代码的AI，才是真本事！而不是那些只会给你“胡编乱造”或者“自作聪明”的家伙。

第二，我们普通人想靠AI编程翻身，还得擦亮眼睛，选对“工具”！ 现在市面上模型千千万，有的光鲜亮丽，一上手就“拉胯”；有的看着不起眼，却能给你实打实的惊喜。当然，还有些明明很强，却又“脾气”古怪，让你用得心惊胆战。

第三，本地部署AI，目前对普通人而言，依然是个“甜蜜的负担”。 想保护数据，想不依赖云服务，这是好事儿！可现实是，你的个人电脑，那点算力，根本喂不饱这些“吞金兽”！这就好比你给一辆法拉利加了拖拉机的油，它能跑起来就不错了，还指望它百公里加速？

四、路漫漫其修远兮

你看，就这么一场简单的“烟花秀”，就能把这些所谓“智能”的大模型们，探个大概的底，谁是真才实学，谁是徒有其表，一目了然。

这玩意儿，说到底，技术再牛掰，也得落实到“为人所用”上。 对咱们普通人来说，能不能真真切切地解决问题，能不能成为我们手里的“生产力工具”，这才是王道！那些花哨的概念，那些纸面上的跑分，都抵不过一个能把“中国地图”给我规规矩矩画出来的烟花程序！

所以，各位，下次再有人跟你吹嘘哪家又出来什么更牛的模型多，你就问他一句：“它能给我写个靠谱的程序，解决我手头的问题吗？”

这事儿，你怎么看？那些让你头疼的AI模型，又给你留下过什么“深刻印象”？欢迎在评论区留下你的“吐槽”和“真知灼见”，咱们一起聊聊，这AI的“底裤”，到底还能扒出点啥！

王昊

用地图思考人生

评论正在加载...

从一张地图到一座肯德基：AI如何打开“临近可能”

UC 2026 之后，Esri 希望 AI “使唤”GIS吗？

与 AI 配合，要从任务型转成乐趣驱动型

想报 GIS、测绘、遥感的孩子，先做一个周末实验