要不要做专业模型？这已经不是重点了

Jul 11, 2024

上周五，我参加了2024全球数字经济大会的城市规划治理大模型专题研讨会。在最后的环节参与圆桌讨论。会议中，各位专家就人工智能在城市规划和治理领域的应用展开了热情的畅享，让我对大模型在地理数据和城市规划领域的应用有了新的思考。

专家们最集中讨论的话题是是否需要训练一个专门针对规划、建筑行业的大模型，以模拟行业专业工作者的隐性知识。其实不只是我们这个行业，几乎在全领域内，这个问题引发了广泛争议。支持者认为，行业专用模型能更准确地捕捉专业知识，提高决策精度；而反对者则担心成本过高，可能限制模型的通用性和创新潜力，更为明显的焦虑是，通用大模型似乎很快就会将全人类所有文字记录的知识学全了。

目前，业界比较普遍的做法是采用通用大模型加上本地的检索增强生成（RAG）系统。这种方法成本相对较低，效果也相当不错。特别是在规划行业，这种方法很好地展现了大模型"不乱讲"的特性，有效降低了因模型幻觉而导致的政策风险。通过将专业知识库与通用大模型结合，我们既能保持模型的广泛适用性，又能确保其在特定领域的准确性。在会议中，张文佳教授给大家演示了他联合北规院张晓东主任的团队开发的成果，确实非常严谨的用本地知识回答用户的问题。

而我表达的是：从目前的应用情况来看，程序员可能是大模型应用中受益最多的群体。大模型在提高编程效率和代码质量方面表现出色，为组织带来了实实在在的效益。这不仅体现在代码生成和bug修复上，还包括文档编写、代码重构等多个方面。这种效率的提升正在改变软件开发的生态，使得开发团队能够更快速地迭代和创新。

在我们极海纵横的实践中，我们正在探索如何让大模型和RAG的整合能够识别更抽象的评价。例如，判断选址位置的好坏，或者评估规划方案的优劣。这是一个具有挑战性但也充满希望的方向。随着多模态大模型的发展，它们越来越能够理解图片、PDF等非结构化数据，这为我们提供了新的可能性。我们可以将地理信息系统（GIS）数据、卫星图像、规划文档等多种信息源输入模型，让AI对城市规划方案进行全面的分析和评估。

我是受人脑怎样识别地图的启发。去年元旦开始每天截取一张由路网和水系构成的城市地图，存入Anki中训练自己的大脑记忆力，先从日本走起！我打算用余生『遍访』全球，在地图上看看这些不熟悉的名字和城市。

在看地图和记地图的过程中，我发现有些地图很容易记住，而大部分无法在大脑中形成一个巩固的印象。原因也很容易理解，大部分城市地图可参考、可对比的特征不够多。为此，大脑中的神经连接『隐藏层』太少。

如果城市的特征很明显，可以一次就记得住。比如，青森市就很容易，这样向北内凹严重的海岸线，即便是在海滨城市鳞次栉比的日本也不多见。

让AI出场识别地图。毫不意外，目前所有支持多模态的大模型都没有准确的识别出青森，不过纽约这种被互联网提及次数最多的城市，就逃不过大模型的『法眼』。让人欣喜的是，有几个模型居然『理解』了青森市的独特意象。比如Gemini1.5猜测是的黎波里，智谱认为是瓦尔帕莱索。

智利的瓦尔帕莱索。已经非常接近青森的整体感觉了，居然还知道这么一个城市，给智谱点个赞！比我强多了

在智谱清言App上输入图片，可以做很多事情，除了翻译，还能做高质量的OCR

极海做的探索自然要远比识别一张地图图片复杂。好在我们做的选址网络规划图是图、文、数字并茂的，这就给大模型了很多『特征』用于判断这是哪张规划图，进而也可以对其进行标注，哪种组合是『好』，哪种不好。这些成果让极海的小伙伴们对更智能的选址充满了期待。

尽管成绩斐然，我认为基于某种流程的场景化创新仍然值得我们投入精力。以苹果即将发布的本地『小模型』为例，它与跨应用程序的整合可能会创造出无数新的应用场景。想象一下，你看过的地图都可以被记住，并自动为你提供相关提示；你阅读过的书籍都可以帮你做记录，随时提取合适的文字；你拍摄和修改过的照片会根据你的喜好自动进行调整。这些场景化的应用将大大提升用户体验，使AI技术更加贴近日常生活。

我更想强调的是，创建流程化的操作比单纯依赖某个本地模型、某些智能体更能体现产品经理、大模型工程师，乃至创业公司的价值。正如一些专家所指出的，我们需要的不是孤立的智能体，而是一个适合AI的工作流。

这里，我想引用一个观点："本质上，使用大语言模型（LLM）来解决问题，思维链（COT, Chain of Thought）是一种有效提升生成质量的方法。"这意味着，提升AI应用效果的关键不在于是否使用了一个本地化的大模型，或者堆砌了一些很聪明的智能体，而在于我们是否设计出了一个合适的思维链或工作流程。

在设计适合AI的工作流时，我们需要考虑几个关键因素：

不要将AI的解决方案局限在人类现有的解决方案上。我们应该充分发挥AI的独特优势，设计出更适合AI特性的工作流程。
不必完全依赖AI做决策，而是让AI辅助推荐决策方案或者做简单的决策。在当前阶段，将AI视为『副驾驶』可能是更加明智的选择。
结合不同领域的AI模型或者工具，设计合适的工作流。通过整合各种专业模型和工具，我们可以创造出更加强大和灵活的解决方案。
回归问题本质，将AI视为解决问题的工具，而不是目的本身。我们应该始终关注我们真正要解决的问题是什么，然后围绕这个问题来设计最合适的AI工作流。比如，我们用规划大模型到底是解决规划师的什么问题？

在城市规划和地理信息领域，我们可以借鉴这些思路来设计更加高效的AI应用流程。例如，我们可以将GIS数据处理、图像识别、自然语言处理等不同的AI技术结合起来，创建一个综合的城市规划辅助系统。这个系统可以自动分析地理数据、识别城市特征、生成规划建议，并通过自然语言界面与规划师进行交互。

最后，我想强调的是，无论是在城市规划还是其他领域，真正能够创造价值的不是单一的AI技术或模型，而是我们如何巧妙地将这些技术整合到一个有效的工作流程中。这需要我们深入理解问题本质，充分发挥AI的优势，同时也要认识到AI的局限性。只有这样，我们才能真正释放AI在各个领域的潜力，推动创新，提高效率，为社会创造更大的价值。

在未来的发展中，我相信那些能够设计出优秀AI工作流的产品经理、工程师和创业公司将会在市场中脱颖而出。Ta们不仅需要掌握AI技术，还要具备深厚的领域知识和创新思维，能够将AI无缝地融入到实际的业务流程中。这种能力将成为未来竞争的关键优势。

封面图片来自参会专家王鹏老师的朋友圈，感谢王鹏老师。

王昊

用地图思考人生

评论正在加载...

“人类沦为AI扫码员”？在地理信息行业的我们该如何与AI相处？

藏在社区里的银发生意：携程2000+家门店重返线下

单位上了满血DeepSeek，然后呢？是掌控还是新的焦虑？

零食巷战：好想来与鸣鸣很忙的贴身肉搏

要不要做专业模型？这已经不是重点了

王昊