城市从未被理解过

Feb 26, 2026

今年初，Google DeepMind 发布了一个叫 Genie 的模型。目前可以在 Ultra 账户上访问到。给它一张从未见过的草图，它能凭空生成一个可以跑、可以跳、可以交互的 3D 游戏世界。没人给它写过物理引擎，没人教它"重力向下"，但画面里的小人就是会掉下来、会被墙壁挡住、会在斜坡上滑动。

它学会了物理。

准确说，它从几十万段互联网视频里，自己"压缩"出了一套动力学规则。不是牛顿三定律那种漂亮的公式，而是一个黑箱里的统计近似——但效果惊人地好。

一个自然的念头随之在我脑海中时常晃动着：既然AI能从视频里学会重力和碰撞，那它能不能从城市数据里学会"道路两边会长出商铺""地铁站三公里内房价会涨""河流会把一座城切成两个世界"？

能不能造一个城市的模拟器？

这个问题价值连城——字面意义上的。智慧城市、房地产估值、灾害推演、交通规划、军事沙盘，随便哪个方向展开都是千亿级市场。但到今天，全球没有任何一家公司拿出过哪怕一个原型。

不是没人想做。是做不了。

而"做不了"这三个字背后藏着的东西，比技术本身更有意思。

我们先回到 Genie 身上，搞清楚它到底做对了什么

Genie 不是一个视频生成器。Sora 也能生成逼真的视频，但 Sora 本质上在"拍电影"——它只管画面好看，不管你接下来想干什么。你没法跳进 Sora 生成的画面里按方向键操控一个角色。

Genie 不同。它被迫回答一个更难的问题：如果玩家现在按了"向右"，世界会变成什么样？

这个"被迫"至关重要。它意味着模型不能只学外观，必须学因果。你推一个箱子，箱子要动。你从平台边缘走过去，角色要掉下去。你连续跳三次，每次落点都要和前两次构成一个自洽的物理世界。

用技术语言说，Genie 在训练中承受着双重压力：一是动作条件化（给定动作预测结果），二是多步滚动一致性（连续操作一百步，世界不能崩）。正是这两股压力，把模型从"看起来像"推向了"行为上对"。

物理定律之所以容易被学到，有一个常被忽视的原因：它们是宇宙里最无聊的东西。苹果在纽约掉下来和在东京掉下来速度一样，铁球在公元前和公元后撞击地面的方式一样。这种"无聊的一致性"恰好是神经网络梦寐以求的——它是数据中最可压缩、最能泛化的模式。当你让模型去预测下一帧，物理规律就是那条成本最低的捷径。

好。现在把同样的逻辑搬到城市上来。

城市不无聊，城市是地球上最复杂的人造物

一个看似简单的现象——"十字路口周围总是聚集着商铺"——背后的生成机制，比苹果下落复杂了几个数量级。它同时涉及人流动力学（路口汇聚步行流量）、地租理论（可见性溢价推高租金，但又不能高到把小店挤走）、规划法规（商业用地审批、容积率限制、退线要求）、历史路径依赖（这个路口五十年前是不是集市）、以及纯粹的偶然（第一家店的老板恰好选了这里）。

物理定律在全球通用。但"十字路口长商铺"这件事，在曼哈顿和在拉萨完全是两套逻辑。在曼哈顿，它服从一个高度金融化的地租竞价模型；在拉萨，它可能更多受制于旅游季节性和宗教动线。

这揭示了地理规律与物理定律之间一道根本的裂缝：物理是硬约束，地理是软博弈。

重力不关心你的感受，每秒9.8米就是每秒9.8米。但"河流会阻隔城市发展"这个判断，取决于有没有人造桥。造不造桥取决于财政预算。预算取决于政治意愿。政治意愿取决于河对岸有没有选票——或者在中国语境下，有没有一个足够强势的区长。

你没法从像素里学到区长的决心。

这才是问题的核心。Genie 成功的前提是：物理规律稳定地编码在像素的时序变化中。但城市的演化规律，大部分不在像素里。它在土地出让合同里，在控规文本里，在市长办公会的纪要里，在开发商的Excel表里，在居民的投诉信里。

这些数据散落在几十个互不相通的系统中，格式从矢量地图到PDF扫描件到口头传达无所不有，更新频率从秒级（交通流量）到十年一次（人口普查）参差不齐。想象一下，如果训练 Genie 的视频素材不是标准的MP4文件，而是一半是手翻书、一半是口述剧情、还有一些帧被涂黑了——这大概就是"城市数据"给你的体验。

但等等，假设我们真的解决了数据问题

某个富有的政府或企业把一座城市三十年来所有的土地变更、建筑审批、人口流动、交通OD（出发地-目的地）数据整理成了干净的时空序列——那是不是就能训练出一个城市世界模型？

答案，我猜是：能，但得到的东西可能和我们想象的不一样。

问题会出在"一次性历史"上。

物理定律的训练数据本质上是无限的。你可以在不同的初始条件下反复观察同一条定律的作用：扔一万次球，每次都是重力定律的独立样本。但城市的历史只发生了一次。上海浦东在1990年代被开发，这件事只发生了一次，在一组特定的政策、经济、人口条件下。你没有一个"平行宇宙的浦东"来做对照实验：如果当年没建东方明珠、没通地铁一号线、没设自贸区，浦东会变成什么样？

没有反事实，就没有因果。没有因果，你训练出来的模型就只是一个花哨的相关性复读机——它能告诉你"历史上地铁站旁边总是繁华的"，但没法可靠地预测"如果在这个荒凉的地方新建一个地铁站，五年后会不会繁华"。前者是描述，后者是推演。我们要的是后者。

这就是为什么 Genie 在其技术路线介绍中有一个看似不起眼却极其关键的词：模拟器。

要让城市世界模型具备推演能力，光靠历史数据不够，必须用传统仿真模型（交通分配模型、土地利用模型、基于代理人的城市增长模型）来"合成"那些历史中没发生过的反事实场景。这听起来有点荒诞——用旧模型的输出去训练新模型——但它恰好对应了 AI 领域一个正在被验证的范式：用模拟器补足真实数据的稀疏性，就像自动驾驶用合成场景训练处理极端工况一样。

这意味着，"城市世界模型"不会是一个从零开始、端到端训练的巨型神经网络。它更可能是一个混合体：神经网络负责学习软规律（人群会往交通便利的地方聚集、商业跟着人流走），而规则引擎负责执行硬约束（容积率不能超标、消防通道宽度不能少于四米、日照间距必须满足国标）。

这两件事的区别，就像"人的直觉"和"法律条文"的区别。你凭直觉知道这个路口适合开咖啡馆，但你必须查法规才知道这块地能不能做商业。模型也一样：它可以"直觉"地生成一个城市发展方案，但得经过规则引擎的审核才能输出。

一个更深层的悖论浮出水面

城市规划（包括商业选址）这个行业，本质上是在做"单次决策"——你只有一次机会来决定这条路修不修、这块地怎么用。决策一旦落地，影响持续几十年，而且几乎不可逆。在这种场景下，决策者对模型的要求不是"平均准确率高"，而是"最坏情况不能太离谱"。

但生成式AI天生就是一个"平均很好、偶尔离谱"的系统。

Genie 生成的游戏世界偶尔会出现穿模、物体悬浮、逻辑自相矛盾的画面。在游戏里，这叫bug，玩家笑一笑就过去了。但如果一个城市模型"幻觉"出一条实际上会被洪水淹没的疏散路线，或者在不该建高层的地质断裂带上生成了一片住宅区，后果不堪设想。

这解释了一个反直觉的现象：市场越大的领域，AI反而越难进入。因为市场大意味着决策影响面广，影响面广意味着容错率低，容错率低意味着纯概率生成模型不被信任。

所以目前真正在用的"城市智能"，走的是一条看起来笨拙但安全得多的路：先建一个精确的3D静态沙盘（数字孪生），然后在上面跑传统的基于规则的仿真。Esri、达索系统、腾讯的智慧城市方案都是这个路径。它们不会"顿悟"物理，也不会"创造性地"生成城市演化方案，但它们不会幻觉。

那么，从自动驾驶方向往上生长的路径呢？

这可能是目前最现实的突破口。自动驾驶的世界模型（如 NVIDIA 的 DRIVE Sim）已经在街道尺度上做到了"理解"三维空间、预测其他车辆和行人的行为、在模拟环境中滚动推演未来几秒的交通态势。它面对的数据格式（LiDAR点云、摄像头视频、高精地图）比城市级数据标准化得多，反馈循环也更快（每一帧都有真实的物理验证）。

如果把这个能力从一个路口扩展到一个街区、一个片区、一座城市——从预测"下一秒这辆车会不会变道"扩展到预测"未来五年这个片区会不会衰落"——理论上就走通了。

但这个"扩展"本身就是一个数量级的跨越。从秒到年，从米到公里，从物理反应到社会行为——每一步放大都引入新的变量类型、新的不确定性来源、新的数据缺口。这不是简单地把模型调大就能解决的问题。

说实话，我不确定五到十年够不够。但有一点几乎可以确定：当这个东西真的出现时，它不会是某个团队从头训练出来的单一大模型。它会是一个生态系统——卫星遥感提供皮肤，交通仿真提供骨架，经济模型提供血液循环，规划法规提供免疫系统，而某个强大的神经网络坐在中间，扮演那个把所有信号整合成一个连贯叙事的大脑。

我们极海也会是其中的参与者，争取做重要的参与者吧。

最终的问题也许不是技术的。而是：当我们真的有能力模拟一座城市的未来时，谁来决定模拟的目标函数？"更好的城市"是GDP更高的城市、通勤时间更短的城市、基尼系数更低的城市、还是公园更多的城市？

AI能回答"如果这样做会发生什么"。但"这样做好不好"，那是另一个完全不同的问题。而我们连后者的共识都还没有达成。

王昊

用地图思考人生

评论正在加载...

龙虾大战：全民装Agent的尽头，是大模型的印钞机

一年多开出 1600 家店后，我发现麦当劳押的不是县城

咱们 GISer 白领的饭碗，可能真要被它砸裂了

华莱士退市，不是倒下，是资本终于看不懂它了