城市从未被理解过
今年初,Google DeepMind 发布了一个叫 Genie 的模型。目前可以在 Ultra 账户上访问到。给它一张从未见过的草图,它能凭空生成一个可以跑、可以跳、可以交互的 3D 游戏世界。没人给它写过物理引擎,没人教它"重力向下",但画面里的小人就是会掉下来、会被墙壁挡住、会在斜坡上滑动。


它学会了物理。
准确说,它从几十万段互联网视频里,自己"压缩"出了一套动力学规则。不是牛顿三定律那种漂亮的公式,而是一个黑箱里的统计近似——但效果惊人地好。
一个自然的念头随之在我脑海中时常晃动着:既然AI能从视频里学会重力和碰撞,那它能不能从城市数据里学会"道路两边会长出商铺""地铁站三公里内房价会涨""河流会把一座城切成两个世界"?
能不能造一个城市的模拟器?
这个问题价值连城——字面意义上的。智慧城市、房地产估值、灾害推演、交通规划、军事沙盘,随便哪个方向展开都是千亿级市场。但到今天,全球没有任何一家公司拿出过哪怕一个原型。
不是没人想做。是做不了。
而"做不了"这三个字背后藏着的东西,比技术本身更有意思。
我们先回到 Genie 身上,搞清楚它到底做对了什么
Genie 不是一个视频生成器。Sora 也能生成逼真的视频,但 Sora 本质上在"拍电影"——它只管画面好看,不管你接下来想干什么。你没法跳进 Sora 生成的画面里按方向键操控一个角色。
Genie 不同。它被迫回答一个更难的问题:如果玩家现在按了"向右",世界会变成什么样?
这个"被迫"至关重要。它意味着模型不能只学外观,必须学因果。你推一个箱子,箱子要动。你从平台边缘走过去,角色要掉下去。你连续跳三次,每次落点都要和前两次构成一个自洽的物理世界。
用技术语言说,Genie 在训练中承受着双重压力:一是动作条件化(给定动作预测结果),二是多步滚动一致性(连续操作一百步,世界不能崩)。正是这两股压力,把模型从"看起来像"推向了"行为上对"。
物理定律之所以容易被学到,有一个常被忽视的原因:它们是宇宙里最无聊的东西。苹果在纽约掉下来和在东京掉下来速度一样,铁球在公元前和公元后撞击地面的方式一样。这种"无聊的一致性"恰好是神经网络梦寐以求的——它是数据中最可压缩、最能泛化的模式。当你让模型去预测下一帧,物理规律就是那条成本最低的捷径。
好。现在把同样的逻辑搬到城市上来。
城市不无聊,城市是地球上最复杂的人造物
一个看似简单的现象——"十字路口周围总是聚集着商铺"——背后的生成机制,比苹果下落复杂了几个数量级。它同时涉及人流动力学(路口汇聚步行流量)、地租理论(可见性溢价推高租金,但又不能高到把小店挤走)、规划法规(商业用地审批、容积率限制、退线要求)、历史路径依赖(这个路口五十年前是不是集市)、以及纯粹的偶然(第一家店的老板恰好选了这里)。
物理定律在全球通用。但"十字路口长商铺"这件事,在曼哈顿和在拉萨完全是两套逻辑。在曼哈顿,它服从一个高度金融化的地租竞价模型;在拉萨,它可能更多受制于旅游季节性和宗教动线。
这揭示了地理规律与物理定律之间一道根本的裂缝:物理是硬约束,地理是软博弈。
重力不关心你的感受,每秒9.8米就是每秒9.8米。但"河流会阻隔城市发展"这个判断,取决于有没有人造桥。造不造桥取决于财政预算。预算取决于政治意愿。政治意愿取决于河对岸有没有选票——或者在中国语境下,有没有一个足够强势的区长。
你没法从像素里学到区长的决心。
这才是问题的核心。Genie 成功的前提是:物理规律稳定地编码在像素的时序变化中。但城市的演化规律,大部分不在像素里。它在土地出让合同里,在控规文本里,在市长办公会的纪要里,在开发商的Excel表里,在居民的投诉信里。
这些数据散落在几十个互不相通的系统中,格式从矢量地图到PDF扫描件到口头传达无所不有,更新频率从秒级(交通流量)到十年一次(人口普查)参差不齐。想象一下,如果训练 Genie 的视频素材不是标准的MP4文件,而是一半是手翻书、一半是口述剧情、还有一些帧被涂黑了——这大概就是"城市数据"给你的体验。
但等等,假设我们真的解决了数据问题
某个富有的政府或企业把一座城市三十年来所有的土地变更、建筑审批、人口流动、交通OD(出发地-目的地)数据整理成了干净的时空序列——那是不是就能训练出一个城市世界模型?
答案,我猜是:能,但得到的东西可能和我们想象的不一样。
问题会出在"一次性历史"上。
物理定律的训练数据本质上是无限的。你可以在不同的初始条件下反复观察同一条定律的作用:扔一万次球,每次都是重力定律的独立样本。但城市的历史只发生了一次。上海浦东在1990年代被开发,这件事只发生了一次,在一组特定的政策、经济、人口条件下。你没有一个"平行宇宙的浦东"来做对照实验:如果当年没建东方明珠、没通地铁一号线、没设自贸区,浦东会变成什么样?
没有反事实,就没有因果。没有因果,你训练出来的模型就只是一个花哨的相关性复读机——它能告诉你"历史上地铁站旁边总是繁华的",但没法可靠地预测"如果在这个荒凉的地方新建一个地铁站,五年后会不会繁华"。前者是描述,后者是推演。我们要的是后者。
这就是为什么 Genie 在其技术路线介绍中有一个看似不起眼却极其关键的词:模拟器。
要让城市世界模型具备推演能力,光靠历史数据不够,必须用传统仿真模型(交通分配模型、土地利用模型、基于代理人的城市增长模型)来"合成"那些历史中没发生过的反事实场景。这听起来有点荒诞——用旧模型的输出去训练新模型——但它恰好对应了 AI 领域一个正在被验证的范式:用模拟器补足真实数据的稀疏性,就像自动驾驶用合成场景训练处理极端工况一样。
这意味着,"城市世界模型"不会是一个从零开始、端到端训练的巨型神经网络。它更可能是一个混合体:神经网络负责学习软规律(人群会往交通便利的地方聚集、商业跟着人流走),而规则引擎负责执行硬约束(容积率不能超标、消防通道宽度不能少于四米、日照间距必须满足国标)。
这两件事的区别,就像"人的直觉"和"法律条文"的区别。你凭直觉知道这个路口适合开咖啡馆,但你必须查法规才知道这块地能不能做商业。模型也一样:它可以"直觉"地生成一个城市发展方案,但得经过规则引擎的审核才能输出。
一个更深层的悖论浮出水面
城市规划(包括商业选址)这个行业,本质上是在做"单次决策"——你只有一次机会来决定这条路修不修、这块地怎么用。决策一旦落地,影响持续几十年,而且几乎不可逆。在这种场景下,决策者对模型的要求不是"平均准确率高",而是"最坏情况不能太离谱"。
但生成式AI天生就是一个"平均很好、偶尔离谱"的系统。
Genie 生成的游戏世界偶尔会出现穿模、物体悬浮、逻辑自相矛盾的画面。在游戏里,这叫bug,玩家笑一笑就过去了。但如果一个城市模型"幻觉"出一条实际上会被洪水淹没的疏散路线,或者在不该建高层的地质断裂带上生成了一片住宅区,后果不堪设想。
这解释了一个反直觉的现象:市场越大的领域,AI反而越难进入。因为市场大意味着决策影响面广,影响面广意味着容错率低,容错率低意味着纯概率生成模型不被信任。
所以目前真正在用的"城市智能",走的是一条看起来笨拙但安全得多的路:先建一个精确的3D静态沙盘(数字孪生),然后在上面跑传统的基于规则的仿真。Esri、达索系统、腾讯的智慧城市方案都是这个路径。它们不会"顿悟"物理,也不会"创造性地"生成城市演化方案,但它们不会幻觉。
那么,从自动驾驶方向往上生长的路径呢?
这可能是目前最现实的突破口。自动驾驶的世界模型(如 NVIDIA 的 DRIVE Sim)已经在街道尺度上做到了"理解"三维空间、预测其他车辆和行人的行为、在模拟环境中滚动推演未来几秒的交通态势。它面对的数据格式(LiDAR点云、摄像头视频、高精地图)比城市级数据标准化得多,反馈循环也更快(每一帧都有真实的物理验证)。
如果把这个能力从一个路口扩展到一个街区、一个片区、一座城市——从预测"下一秒这辆车会不会变道"扩展到预测"未来五年这个片区会不会衰落"——理论上就走通了。
但这个"扩展"本身就是一个数量级的跨越。从秒到年,从米到公里,从物理反应到社会行为——每一步放大都引入新的变量类型、新的不确定性来源、新的数据缺口。这不是简单地把模型调大就能解决的问题。
说实话,我不确定五到十年够不够。但有一点几乎可以确定:当这个东西真的出现时,它不会是某个团队从头训练出来的单一大模型。它会是一个生态系统——卫星遥感提供皮肤,交通仿真提供骨架,经济模型提供血液循环,规划法规提供免疫系统,而某个强大的神经网络坐在中间,扮演那个把所有信号整合成一个连贯叙事的大脑。
我们极海也会是其中的参与者,争取做重要的参与者吧。
最终的问题也许不是技术的。而是:当我们真的有能力模拟一座城市的未来时,谁来决定模拟的目标函数?"更好的城市"是GDP更高的城市、通勤时间更短的城市、基尼系数更低的城市、还是公园更多的城市?
AI能回答"如果这样做会发生什么"。但"这样做好不好",那是另一个完全不同的问题。而我们连后者的共识都还没有达成。