城市从未被理解过

Feb 26, 2026

今年初,Google DeepMind 发布了一个叫 Genie 的模型。目前可以在 Ultra 账户上访问到。给它一张从未见过的草图,它能凭空生成一个可以跑、可以跳、可以交互的 3D 游戏世界。没人给它写过物理引擎,没人教它"重力向下",但画面里的小人就是会掉下来、会被墙壁挡住、会在斜坡上滑动。

它学会了物理。

准确说,它从几十万段互联网视频里,自己"压缩"出了一套动力学规则。不是牛顿三定律那种漂亮的公式,而是一个黑箱里的统计近似——但效果惊人地好。

一个自然的念头随之在我脑海中时常晃动着:既然AI能从视频里学会重力和碰撞,那它能不能从城市数据里学会"道路两边会长出商铺""地铁站三公里内房价会涨""河流会把一座城切成两个世界"?

能不能造一个城市的模拟器?

这个问题价值连城——字面意义上的。智慧城市、房地产估值、灾害推演、交通规划、军事沙盘,随便哪个方向展开都是千亿级市场。但到今天,全球没有任何一家公司拿出过哪怕一个原型。

不是没人想做。是做不了。

而"做不了"这三个字背后藏着的东西,比技术本身更有意思。


我们先回到 Genie 身上,搞清楚它到底做对了什么

Genie 不是一个视频生成器。Sora 也能生成逼真的视频,但 Sora 本质上在"拍电影"——它只管画面好看,不管你接下来想干什么。你没法跳进 Sora 生成的画面里按方向键操控一个角色。

Genie 不同。它被迫回答一个更难的问题:如果玩家现在按了"向右",世界会变成什么样?

这个"被迫"至关重要。它意味着模型不能只学外观,必须学因果。你推一个箱子,箱子要动。你从平台边缘走过去,角色要掉下去。你连续跳三次,每次落点都要和前两次构成一个自洽的物理世界。

用技术语言说,Genie 在训练中承受着双重压力:一是动作条件化(给定动作预测结果),二是多步滚动一致性(连续操作一百步,世界不能崩)。正是这两股压力,把模型从"看起来像"推向了"行为上对"。

物理定律之所以容易被学到,有一个常被忽视的原因:它们是宇宙里最无聊的东西。苹果在纽约掉下来和在东京掉下来速度一样,铁球在公元前和公元后撞击地面的方式一样。这种"无聊的一致性"恰好是神经网络梦寐以求的——它是数据中最可压缩、最能泛化的模式。当你让模型去预测下一帧,物理规律就是那条成本最低的捷径。

好。现在把同样的逻辑搬到城市上来。


城市不无聊,城市是地球上最复杂的人造物

一个看似简单的现象——"十字路口周围总是聚集着商铺"——背后的生成机制,比苹果下落复杂了几个数量级。它同时涉及人流动力学(路口汇聚步行流量)、地租理论(可见性溢价推高租金,但又不能高到把小店挤走)、规划法规(商业用地审批、容积率限制、退线要求)、历史路径依赖(这个路口五十年前是不是集市)、以及纯粹的偶然(第一家店的老板恰好选了这里)。

物理定律在全球通用。但"十字路口长商铺"这件事,在曼哈顿和在拉萨完全是两套逻辑。在曼哈顿,它服从一个高度金融化的地租竞价模型;在拉萨,它可能更多受制于旅游季节性和宗教动线。

这揭示了地理规律与物理定律之间一道根本的裂缝:物理是硬约束,地理是软博弈。

重力不关心你的感受,每秒9.8米就是每秒9.8米。但"河流会阻隔城市发展"这个判断,取决于有没有人造桥。造不造桥取决于财政预算。预算取决于政治意愿。政治意愿取决于河对岸有没有选票——或者在中国语境下,有没有一个足够强势的区长。

你没法从像素里学到区长的决心。

这才是问题的核心。Genie 成功的前提是:物理规律稳定地编码在像素的时序变化中。但城市的演化规律,大部分不在像素里。它在土地出让合同里,在控规文本里,在市长办公会的纪要里,在开发商的Excel表里,在居民的投诉信里。

这些数据散落在几十个互不相通的系统中,格式从矢量地图到PDF扫描件到口头传达无所不有,更新频率从秒级(交通流量)到十年一次(人口普查)参差不齐。想象一下,如果训练 Genie 的视频素材不是标准的MP4文件,而是一半是手翻书、一半是口述剧情、还有一些帧被涂黑了——这大概就是"城市数据"给你的体验。


但等等,假设我们真的解决了数据问题

某个富有的政府或企业把一座城市三十年来所有的土地变更、建筑审批、人口流动、交通OD(出发地-目的地)数据整理成了干净的时空序列——那是不是就能训练出一个城市世界模型?

答案,我猜是:能,但得到的东西可能和我们想象的不一样。

问题会出在"一次性历史"上。

物理定律的训练数据本质上是无限的。你可以在不同的初始条件下反复观察同一条定律的作用:扔一万次球,每次都是重力定律的独立样本。但城市的历史只发生了一次。上海浦东在1990年代被开发,这件事只发生了一次,在一组特定的政策、经济、人口条件下。你没有一个"平行宇宙的浦东"来做对照实验:如果当年没建东方明珠、没通地铁一号线、没设自贸区,浦东会变成什么样?

没有反事实,就没有因果。没有因果,你训练出来的模型就只是一个花哨的相关性复读机——它能告诉你"历史上地铁站旁边总是繁华的",但没法可靠地预测"如果在这个荒凉的地方新建一个地铁站,五年后会不会繁华"。前者是描述,后者是推演。我们要的是后者。

这就是为什么 Genie 在其技术路线介绍中有一个看似不起眼却极其关键的词:模拟器

要让城市世界模型具备推演能力,光靠历史数据不够,必须用传统仿真模型(交通分配模型、土地利用模型、基于代理人的城市增长模型)来"合成"那些历史中没发生过的反事实场景。这听起来有点荒诞——用旧模型的输出去训练新模型——但它恰好对应了 AI 领域一个正在被验证的范式:用模拟器补足真实数据的稀疏性,就像自动驾驶用合成场景训练处理极端工况一样。

这意味着,"城市世界模型"不会是一个从零开始、端到端训练的巨型神经网络。它更可能是一个混合体:神经网络负责学习软规律(人群会往交通便利的地方聚集、商业跟着人流走),而规则引擎负责执行硬约束(容积率不能超标、消防通道宽度不能少于四米、日照间距必须满足国标)。

这两件事的区别,就像"人的直觉"和"法律条文"的区别。你凭直觉知道这个路口适合开咖啡馆,但你必须查法规才知道这块地能不能做商业。模型也一样:它可以"直觉"地生成一个城市发展方案,但得经过规则引擎的审核才能输出。


一个更深层的悖论浮出水面

城市规划(包括商业选址)这个行业,本质上是在做"单次决策"——你只有一次机会来决定这条路修不修、这块地怎么用。决策一旦落地,影响持续几十年,而且几乎不可逆。在这种场景下,决策者对模型的要求不是"平均准确率高",而是"最坏情况不能太离谱"

但生成式AI天生就是一个"平均很好、偶尔离谱"的系统。

Genie 生成的游戏世界偶尔会出现穿模、物体悬浮、逻辑自相矛盾的画面。在游戏里,这叫bug,玩家笑一笑就过去了。但如果一个城市模型"幻觉"出一条实际上会被洪水淹没的疏散路线,或者在不该建高层的地质断裂带上生成了一片住宅区,后果不堪设想。

这解释了一个反直觉的现象:市场越大的领域,AI反而越难进入。因为市场大意味着决策影响面广,影响面广意味着容错率低,容错率低意味着纯概率生成模型不被信任。

所以目前真正在用的"城市智能",走的是一条看起来笨拙但安全得多的路:先建一个精确的3D静态沙盘(数字孪生),然后在上面跑传统的基于规则的仿真。Esri、达索系统、腾讯的智慧城市方案都是这个路径。它们不会"顿悟"物理,也不会"创造性地"生成城市演化方案,但它们不会幻觉。


那么,从自动驾驶方向往上生长的路径呢?

这可能是目前最现实的突破口。自动驾驶的世界模型(如 NVIDIA 的 DRIVE Sim)已经在街道尺度上做到了"理解"三维空间、预测其他车辆和行人的行为、在模拟环境中滚动推演未来几秒的交通态势。它面对的数据格式(LiDAR点云、摄像头视频、高精地图)比城市级数据标准化得多,反馈循环也更快(每一帧都有真实的物理验证)。

如果把这个能力从一个路口扩展到一个街区、一个片区、一座城市——从预测"下一秒这辆车会不会变道"扩展到预测"未来五年这个片区会不会衰落"——理论上就走通了。

但这个"扩展"本身就是一个数量级的跨越。从秒到年,从米到公里,从物理反应到社会行为——每一步放大都引入新的变量类型、新的不确定性来源、新的数据缺口。这不是简单地把模型调大就能解决的问题。

说实话,我不确定五到十年够不够。但有一点几乎可以确定:当这个东西真的出现时,它不会是某个团队从头训练出来的单一大模型。它会是一个生态系统——卫星遥感提供皮肤,交通仿真提供骨架,经济模型提供血液循环,规划法规提供免疫系统,而某个强大的神经网络坐在中间,扮演那个把所有信号整合成一个连贯叙事的大脑。

我们极海也会是其中的参与者,争取做重要的参与者吧。

最终的问题也许不是技术的。而是:当我们真的有能力模拟一座城市的未来时,谁来决定模拟的目标函数?"更好的城市"是GDP更高的城市、通勤时间更短的城市、基尼系数更低的城市、还是公园更多的城市?

AI能回答"如果这样做会发生什么"。但"这样做好不好",那是另一个完全不同的问题。而我们连后者的共识都还没有达成。

王昊

用地图思考人生

评论正在加载...
Great! You've successfully subscribed.
Great! Next, complete checkout for full access.
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
分享